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内 容 提要 


这 本 书 旨 在 帮助 那些 希望 用 数学 工具 解决 实际 问题 的 人 们 ， 仅 有 
的 要 求 可 能 就 是 全 一 点 概率 知识 和 程序 设计 。 贝 时 斯 方法 是 一 种 常见 
的 利用 概率 学 知识 去 解决 不 确定 性 问题 的 数学 方法 ， 对 于 一 个 计算 机 
专业 人 士 ， 应 当 熟 悉 其 在 诸如 机 器 翻译 、 语 音 识别 、 垃 圾 邮件 检测 等 
常见 的 计算 机 领域 的 应 用 。 


本 书 实际 上 会 扩大 你 的 视野 ， 即 使 不 是 一 个 计算 机 专业 人 士 ， 你 
也 可 以 看 到 在 战争 环境 下 (第 二 次 世界 大 战 德 军 坦 元 问题 ) ， 法 律 问 
题 上 ( 肾 肿瘤 的 假设 验证 ) ， 体 育 博彩 领域 中 ( 柠 熊 队 和 加 入 队 NHL 
比赛 问题 ， 贝 叶 斯 方法 的 威力 。 怎 么 从 有 限 的 信息 判断 德军 装甲 部 队 
的 规模 ?你 所 支持 的 球 队 有 多 大 可 能 蝗 得 冠军 ? 在 《 龙 与 地 下 城 》 勇 
士 中 ， 你 应 当 对 游戏 角色 属性 的 最 大 值 有 怎样 的 预期 ? 甚至 在 普通 的 
彩 弹 射击 游戏 中 ， 拥 有 一 些 贝 叶 斯 思维 也 能 帮助 你 提高 游戏 水 平 。 


除 此 以 外 ， 本 书 在 共计 15 章 的 篇 幅 中 讨论 了 怎样 解决 十 几 个 现实 
生活 中 的 实际 问题 。 在 这 些 问 题 的 解决 过 程 中 ， 作 者 还 潜移默化 地 帮 
助 读者 形成 了 建 模 决策 的 方法 论 ， 建 模 误 差 和 数值 误差 坚 么 取舍 ， 起 
样 为 具体 问题 建立 数学 模型 ， 如 何 抓 住 问题 中 的 主要 矛盾 (模型 中 的 
关键 参数 ) ， 下 一 步 一 步 地 优化 或 者 验证 模型 的 有 效 性 或 者 局 限 性 。 
在 这 个 意义 上 ， 这 本 书 义 十 一 本 关于 数学 建 模 的 成 功 样本 。 


推荐 序 


很 多 人 把 世界 理解 为 基于 位 单 的 、 确 定 的 ， 非 一 即 零 、 非 黑 即 日 
的 。 但 十 真实 的 世界 却 是 非常 复杂 的 ， 不 是 一 两 个 公式 可 以 完美 总 结 
概括 的 。 束 像 我 们 的 高 考 成 绩 和 我 们 的 学 习 水 平 ， 确 实 有 很 大 的 联 
系 ， 但 是 最 后 又 会 受到 很 多 因素 的 影响 (比如 身体 状况 ， 是 否 休息 好 
了 ， 心 情 ， 天 气 等 ) ， 进 而 使 得 我 们 的 最 终 成 绩 在 真实 水 平 上 下 有 很 
大 的 波动 。 这 束 像 我 们 分 析 很 多 事情 时 ， 经 党 得 到 的 结论 ,“ 既 有 必然 
性 ， 又 有 偶然 性 ”。 


这 个 时 候 ， 基 于 概率 和 统计 的 方法 给 了 我 们 很 多 的 帮助 。 很 多 时 
候 ， 我 们 不 能 给 出 每 一 个 人 、 每 一 件 事 的 确定 结 有 末 。 但 是 当 我 们 观察 
大 量 的 相同 事件 后 ， 我 们 就 会 发 现 从 一 个 集体 的 意义 上 的 规律 是 存在 
的 。 而 单个 事件 每 次 可 能 得 到 不 同 的 结 采 ， 这 些 结 采 以 最 有 可 能 的 结 
果 为 中 心 ， 服 从 一 定 的 概率 分 布 。 了 解 这 些 分 布 数 据 ， 使 我 们 更 加 容 
易 理 解 和 预期 真实 世界 的 多 边 形 。 


回顾 在 进行 计算 机 目 然 语 言 处 理 过 程 中 走 过 的 路 ， 我 们 融会 发 现 
从 人 研 究 规则 到 研究 统计 的 转变 。 最 初 ， 人 研究 人 员 都 认为 ， 语 言 是 基于 
语法 规则 。 这 个 也 很 容易 理解 ， 因 为 我 们 学 习 语 言 的 时 候 ， 总 是 表单 
词 ， 学 语法 ， 然 后 掌握 语言 。 基 于 这 种 思维 ， 目 然 语 言 处 理 经 历 了 多 
年 的 发 展 后 ， 遇 到 了 巨大 的 挑战 。 那 就 古 即 便 语法 规则 已 经 非常 复 
杂 ， 仍 然 不 能 处 理 大 多 数 的 语言 情况 。 从 结 采 上 而 言 ， 目 然 语 言 处 理 
的 准确 度 远 低 于 人 类 ， 不 具有 真正 的 使 用 价值 。 而 后 ， 有 一 批 学 者 开 
台 尺 辟 蹊 径 ， 基 于 统计 的 思路 进行 探索 。 如 果 语 言 是 根据 人 类 沟通 需 
求 目 然 发 生 ， 然 后 才 有 总 结 出 来 的 语法 呢 ? 基于 这 种 思想 ， 研 究 人 员 
放弃 语法 规则 ， 开 始 建立 基于 统计 的 模型 。 他 们 使 用 了 大 量 的 真实 文 
本 数据 ， 分 析 每 个 词 和 它 前 后 的 词 出 现 的 统计 关系 ， 用 贝 叶 斯 方法 以 
及 马尔 科 夫 过 程 ， 建 立 了 新 的 目 然 语 言 处 理 模型 。 这 一 次 ， 语 言 处 理 
准确 率 有 了 巨大 的 提升 ， 进 而 达到 可 以 实用 的 要 求 。 今 天 ， 当 我 们 使 
0 
功 态 。 


还 有 很 多 的 真实 世界 的 事情 都 是 这 样 的 ， 比 如 路 上 的 交通 是 否 阻 
塞 、 银 行 排队 的 时 间 、 球 赛 的 比赛 结果 ， 都 是 以 一 种 概率 的 形式 出 现 


的 。 了 人 解 贝 叶 斯 方法 ， 也 是 了 解 真实 世界 运行 的 一 种 有 效 途 径 。 本 书 
中 也 列举 了 很 多 的 真实 实例 来 告诉 我 们 ， 贝 叶 斯 方法 和 真实 世界 的 联 


力 、~、 


另外 ， 在 我 们 正在 经 历 的 大 数据 时 代 ， 作 为 数据 分 析 方法 的 一 个 
巨大 人 分支， 基于 贝 叶 斯 的 机 器 学 习 算 法 也 在 被 广泛 地 使 用 ， 并 产生 很 
多 实际 意义 。 比 如 位 单 贝 叶 斯 算法 、 贝 叶 斯 信念 网 络 等 ， 伞 广泛 地 应 
用 于 分 类 和 预测 。 对 于 海量 数据 的 文本 分 类 问题 ， 例 如 ， 坪 摇 邮 件 的 
对 光 和 过 滤 ， 基 于 贝 叶 斯 方法 的 算法 取得 了 非常 好 的 效 采 ， 并 在 很 多 
公司 中 正在 使 用 ， 帮 助 我 们 远离 垃圾 邮件 的 骚扰 。 


更 加 难能可贵 的 是 ， 本 书 作 者 用 相对 简单 的 Python 语 言 ， 对 所 涉 
及 的 实例 进行 了 编程 。 对 于 有 一 定 计算 机 基础 的 人 来 说 ， 通 过 程序 ， 
可 以 进一步 理解 贝 叶 斯 方法 的 应 用 ， 真 正 掌握 并 且 可 以 利用 这 些 程序 
达到 举一反三 的 效果 。 


本 书 用 人 简洁 的 语言 ， 大 量 的 实例 和 故事 ， 辅 之 以 简单 的 Python 语 
言 ， 把 原本 枯燥 的 概率 理论 讲 得 生动 且 容 易 理解 。 在 学 习 到 理论 的 同 
时 ， 还 了 解 了 它 的 真实 意义 以 及 可 以 使 用 的 地 方 。 对 于 有 追求 的 工程 
师 和 感 兴趣 的 读者 而 言 ， 这 是 一 本 提升 目 我 的 很 好 的 图 书 。 
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ee 


前 言 


学 习 之 道 


这 本 书 以 及 Think 系 列 其 他 书籍 的 一 个 前 提 是 ， 只 要 慌 得 编程 ， 你 
束 能 用 这 个 技能 去 学 习 其 他 的 内 容 。 


绝 大 多 数 贝 叶 斯 统计 的 书 使 用 数学 符号 并 以 数学 概念 的 形式 表示 
数学 思想 ， 比 如 微 积 分 。 但 本 书 使 用 了 Python 代码 而 不 是 数学 ， 离 散 
近似 而 不 是 连续 数学 。 结 末了 束 是 原本 需要 积分 的 地 方 变 成 了 求 和 ， 概 
率 分 布 的 大 多 数 操作 变 成 了 简单 的 循环 。 


我 认为 这 样 的 表 壕 古 易 于 理解 的 ， 至 少 对 于 有 编程 经 验 的 人 们 来 
说 是 这 样 的 。 当 作 建 模 选 择 时 也 非常 实用 ， 因 为 我 们 可 以 选取 最 合适 
的 模型 而 不 用 担心 偏离 常规 分 析 太 多 。 


另外， 这 也 提供 了 一 个 从 简化 模型 到 真实 问题 的 平滑 发 展 路 线 ， 
第 3 章 殉 是 一 个 好 示例 。 它 由 一 个 关于 盘子 的 簿 单 例子 开始 ， 那 是 基本 
概率 的 一 个 主题 ， 紧 接着 谈 到 了 一 个 我 从 Mosteller《50 个 挑战 的 统计 
学 难题 》 (Fifty Challenging Problems in Probability) 一 书 中 借用 的 火 
车 头 问 题 ; 最 后 是 德军 坦克 问题 ， 这 个 第 二 次 世界 大 战 中 成 功 的 贝 叶 
斯 方法 应 用 案例 。 


建 模 和 近似 


本 书 中 多 数 章 世 的 灵感 都 是 由 真实 世界 里 的 问题 所 激发 的 ， 所 以 
涉及 了 一 些 建 模 知 识 ， 在 应 用 贝 叶 斯 方法 (或 者 其 他 的 分 析 方 法 ) 
前 ， 我 们 必须 决定 真实 世界 中 的 哪些 部 分 可 以 被 包括 进 模型 ， 而 哪些 
细 市 可 以 被 抽象 挥 。 


例如 ， 第 7 章 中 那个 预测 冰球 比赛 获胜 队伍 的 例子 ， 我 将 进 球 得 分 
建 模 为 一 个 泊 松 过 程 ， 这 预示 着 在 比赛 的 任何 时 段 进 球 机 会 都 是 相等 
的 ， 这 并 不 完全 符合 实际 情况 ， 但 就 大 多 数目 的 来 说 可 能 束 够 了 。 


第 12 章 中 ， 问 题 是 对 SAT 得 分 进行 解释 (SAT 是 用 于 全 美 大 学 的 
入 学 标准 测试 ) 。 我 以 一 个 假设 所 有 SAT 试 题 难度 相同 的 简化 模型 开 
始 ， 但 其 实 SAT 的 试题 设计 中 既 包 括 了 相对 容易 ， 也 包括 了 相对 较 难 
的 试题 。 随 后 提出 了 第 二 个 反映 这 一 设计 目的 的 模型 ， 结 果 显 出 两 个 
模型 在 最 终 效果 上 没有 大 的 差别 。 


我 认为 在 解决 问题 的 过 程 中 ， 明 确 建 模 过 程 作为 其 中 一 部 分 是 重 
i 
市 yj 误差 


本 书 中 的 很 多 方法 都 基于 离散 分 布 ， 这 让 一 些 人 担心 数值 误差 ， 
但 对 于 真实 世界 的 问题 ， 数 值 误差 几乎 从 来 都 小 于 建 模 误差 。 


再 者 ， 离 散 方法 总 能 允许 较 好 的 建 模 选 择 ， 我 宁愿 要 一 个 近似 的 
良好 的 模型 也 不 要 一 个 精确 但 却 糟糕 的 模型 。 


从 另 一 个 角度 看 ， 连 续 方 法 种 在 性 能 上 有 优势 ， 比 如 能 以 遂 数 时 
间 复 杂 度 的 解法 蔡 换 掉 线 性 或 者 平方 时 间 复 杂 度 的 解法 。 


总 的 来 说 ， 我 推荐 这 些 步 又 的 一 个 通用 流程 如 下 。 


1， 当 人 研究 问题 时 ， 以 一 个 简化 模型 开始 ， 并 以 清晰 、 好 理解 、 实 
证 无 误 的 代码 实现 它 。 注 意 力 集中 在 好 的 建 模 决 策 而 不 是 优化 上 。 


2. 一 旦 简化 模型 有 效 ， 再 找到 最 大 的 错误 来 源 。 这 可 能 需要 增加 
离散 近似 过 程 当中 值 的 数量 ， 或 者 增加 绽 特 卡 洛 方法 中 的 迭代 次 数 ， 
或 者 增加 模型 细节 。 


3. 如 果 对 你 的 应 用 而 言 性 能 就 已 经 足够 了 ， 则 没 必要 再 优化 。 但 
如 果 要 做 ， 有 两 个 方向 可 以 考虑 : 评估 你 的 代码 以 寻找 优化 空间 ， 例 
如 ， 如 有 果 你 缓存 了 前 面 的 计算 结 有 末 ， 你 也 许 能 避免 重复 见 余 的 计算 ; 
或 者 可 以 去 发 现 找到 计算 捷径 的 分 析 方 法 。 


这 一 流程 的 好 处 是 第 一 、 第 二 步 较 快 ， 所 以 你 能 在 投入 大 量 精力 
前 研究 多 个 可 替代 的 模型 。 


另 一 个 好 处 是 在 第 三 步 ， 你 可 以 从 一 个 大 体 正 确 的 可 参考 实现 开 
始 进 行 回归 测试 。 也 就 是 ， 检 查 优化 后 的 代码 是 否 得 到 了 同样 的 结 


东 ， 至 少 是 近似 的 结 末 。 


代码 指南 


本 书 中 的 很 多 例子 使 用 了 在 thinkbayes .py 当中 定义 的 类 和 男 
数 ， 可 以 从 http:Nthinkbayes.com/thinkbayes.py 下 载 这 个 模块 。 


本 书 大 多 数 章节 包括 了 可 以 从 http:Mhninkbayes.com 下 载 的 代码 ， 
其 中 有 一 些 依赖 代码 也 需要 下 载 ， 我 建议 你 将 这 些 文件 全 部 放 入 同一 
， 这 样 代 码 间 天 可 以 彼此 引用 而 无 需 变 更 Python 的 库 文 件 搜索 

位 


你 可 以 在 需要 时 再 下 载 这 些 代码 ， 或 者 一 次 性 从 
http:/thinkbayes.com/thinkbayes_code.zip 下 载 ， 这 个 文件 也 包括 了 某 些 
程序 使 用 的 数据 文件 ， 当 解压 时 ， 将 创建 名 为 thinkbayes_code 的 
包括 本 书 中 所 有 代码 的 目录 。 


另外 ， 如 采 是 Git 用 户 ， 你 可 以 通过 fork 和 clone 来 一 次 性 获得 这 个 
仓库 : https://github.com/AllenDowney/ThinkBayes 。 


我 用 到 的 模块 之 一 是 thinkplot ,py ， 它 对 pyplot 中 一 些 函 数 
进行 了 封装 ， 要 使 用 它 需 要 安装 好 matp1Lot1ib ， 如 果 还 没有 ， 检 查 
你 的 软件 包 管 理 器 看 看 它 是 否 存在 ， 否 则 你 可 以 从 http:/matplotlib.org 
得 到 下 载 指南 。 


最 后 ， 本 书 中 一 些 程序 使 用 了 NumPy 和 SciPy， 可 以 从 
http://numpy.org 和 和 http://scipy.org 获得 。 


编码 风格 


有 经 验 的 Python 程序 员 会 注意 到 本 书 中 的 代码 没有 符合 PEP 8 这 一 
最 通用 的 Python 编码 指南 (http:/www.python.org/dev/peps/pep-0008/ 
) o 


确切 地 说 ，PEP 8 使 用 带 有 词 间 下 划 线 的 小 写 函 数 名 like_this， 而 
中 和 实现 的 代码 里 ， 函 数 和 方法 名 以 大 写 开 头 并 使 用 间 隅 式 的 
小 写 ，LikeThis。 


没有 遵循 PEP 8 规范 的 原因 是 在 我 为 书 中 内 容 准 备 代 人 码 时 正在 谷歌 
做 访问 学 者 ， 所 以 就 遵循 了 谷歌 的 编码 规范 ， 它 只 在 少数 地 方 沿袭 了 
PEP 8， 一 用 上 了 谷歌 风格 我 就 喜欢 上 了 ， 现 在 要 改 太 麻烦 。 


同样 ， 在 主题 风格 上 ， 如 在 “Bayes's theorem” 中 ，s 放 在 单 引 号 
后 ， 在 某 些 风格 指南 中 倾向 这 样 使 用 而 在 其 他 指南 当中 不 是 。 我 没有 
特别 的 偏好 ， 但 不 得 不 选择 其 一 ， 所 以 就 是 你 们 现在 看 到 的 这 个 。 


最 后 一 个 排版 上 的 注脚 是 : 货 罕 全书， 我 使 用 PMF 和 CDF 表 示 概 
率 密度 函数 或 素 积 分 布 函 数 这 些 数学 概 您， 而 Pmf 和 Cdf 是 指 我 所 表述 
的 Python 对 象 。 


预备 条 件 


还 有 几 个 出 色 的 能 在 Python 中 进行 贝 叶 斯 统计 的 模块 ， 包 括 pymoc 
和 OpenBUGS， 由 于 读者 需要 有 相当 多 的 背景 知识 才能 开始 使 用 这 些 
模块 ， 因 此 本 书 中 我 没有 使 用 它们 ， 而 且 我 想 使 阅读 本 书 的 预备 条 件 
最 小 。 如 果 你 了 解 Python 和 一 点 点 概率 知识 ， 就 可 以 开始 阅读 本 书 。 


第 1 章 关 于 概率 论 和 贝 叶 斯 定理 ， 没 有 程序 代码 。 第 2 章 介绍 了 
Pmf， 一 望 而 知 是 用 来 表示 概率 密度 函数 (PMF) 的 Python 字典 对 象 。 
然后 第 3 章 我 介绍 了 Suite， 一 个 Pmf 对 象 ， 也 是 一 个 能 进行 贝 叶 斯 更 新 
的 框架 ， 因 而 万 事 具 备 了 。 

好 了 ， 随 后 的 章节 中 ， 我 使 用 了 高 斯 ( 正 态 ) 分 布 ， 二 次 和 泊 松 
分 布 ，beta 分 布 等 各 种 分 析 型 的 概率 分 布 ， 在 第 15 草 ， 我 介绍 了 不 太 
常见 的 狄 利 殉 雷 分 布 ， 不 过 接着 也 进行 了 解释 。 如 采 你 不 束 悉 这 类 分 
布 ， 可 以 从 维基 百科 了 解 它们 。 也 可 以 阅读 本 书 的 一 本 指南 《统计 思 
维 》 (Think Stats) ， 或 其 他 入 门 级 的 统计 学 书籍 (不 过 ， 念 怕 大 多 
数 类 似 书 籍 都 会 采取 对 实战 没有 太 大 帮助 的 数学 方法 来 阐述 ) 。 


书 中 使 用 的 惯例 写法 
本 书 中 使 用 了 下 面 的 印刷 惯例 。 
斜体 (Italic ) 


表示 新 术语 ，URL， 邮 件 地 址 ， 文 件 名 和 文件 扩展 名 。 
等 宽 (Constant width ) 


用 于 程序 代码 ， 也 包括 那些 表示 程序 代码 元 素 的 段落 ， 例 如 ， 变 
量 和 函数 名 ， 数 据 库 ， 数 据 类 型 ， 环 境 变 量 ， 声 明和 关键 字 。 


等 宽 粗 体 ( Constant width bold ) 

命令 或 者 其 他 由 用 户 输入 的 文字 。 

等 宽 斜 体 (Constant width Italic ) 

应 该 由 用 户 输入 值 奉 换 或 者 由 上 下 文 决 定 的 文本 。 


J 


长 


ww 


A 
Ww a。 
IY 


这 个 图 标 表 示 这 是 一 个 提示 、 建 议 或 者 一 般 性 的 注 记 。 


> 
这 个 图 标 表示 这 是 提醒 或 者 警示 。 
我 们 的 联系 方式 
如 果 你 想 就 本 书 发 表 评论 或 有 任何 疑问 ， 敬 请 联系 出 版 社 。 
美国 


O’Reilly Media Inc. 


1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 


北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 

奥 薪 利 技术 咨询 (北京 ) 有 限 公司 

我 们 还 为 本 书 建 立 了 一 个 网 页 ， 其 中 包含 了 勘误 表 、 示 例 和 其 他 
额外 的 信息 。 你 可 以 通过 地 址 访问 该 网 页 : http:/oreil.ly/think-bayes 


天 于 本 书 的 技术 性 问题 或 建议 ， 请 发 邮件 到 : 


bookquestions(@oreilly.com ° 


欢迎 登录 我 们 的 网 站 | ( http:/www.oreilly.com ) ， 查 看 更 多 我 们 
的 书籍 、 课 程 、 会 议和 最 新 动态 等 信息 。 


我 们 的 其 他 联系 方式 如 下 。 


Facebook: http://facebook.com/oreilly 
Twitter: http:/twitter.com/oreillymedia 


YouTube: http:/www.youtube.com/oreillymedia 


页 献 者 列表 


如 有 果 你 发 现 本 书 有 需要 更 正 的 地 方 或 者 其 他 建议 ， 请 发 送 电 子 邮 
件 至 downey@allendowney.com。 一 旦 根据 你 的 反馈 进行 了 修正 ， 我 会 
将 你 加 入 贡献 者 列表 (除了 要 求 不 署名 的 情况 ) 。 


提供 包含 错误 之 处 的 段落 部 分 ， 会 让 我 更 容易 找到 它们 。 只 提供 
页 和 节 数 也 可 以 ， 但 还 是 不 太 容 易 找 到 错误 之 处 。 这 里 先 致谢 ! 


。 首先 ， 我 要 感谢 大 卫 . 麦 凯 (David MacKay) 的 优秀 作品 《信息 理 
论 、 推 理 和 学 习 算 法 》 (Information Theory Inference, and 
Learning Algorithms) ， 我 从 这 本 书 里 第 一 次 理解 了 贝 叶 斯 方法 。 
他 允许 我 使 用 他 书 中 的 几 个 问题 来 作为 例子 。 

。 这 本 书 也 得 益 于 我 和 圣 乔 恩 : 马 哈 的 相互 配合 ，2012 的 秋天 我 在 欧 
林学 院 审 核 了 他 的 贝 叶 斯 推理 课程 。 


在 参加 波士顿 Python 用 户 组 项 目 时 ， 我 在 夜班 时 间 完 成 了 本 书 的 
部 分 内 容 ， 所 以 我 也 要 感谢 他 们 以 及 他 们 所 提供 的 比 柜 。 
乔纳森 :爱德华 效 提 交 了 第 一 个 拼写 错误 。 

乔治 . 班 金 斯 发 现 了 一 个 标记 错误 。 

奥 利 维尔 提出 了 几 个 有 益 的 建议 。 

尤 里 - 帕 西 奇 尼克 发 现 了 几 个 错误 。 

克里斯托弗 . 欧 霍 特 提 交 了 一 个 更 正和 建议 的 清单 。 

罗伯特 : 马 库 斯 发 现 了 一 个 错误 放置 的 小 写 ij。 

麦克 斯 : 黑 尔 珀 林 建 议 在 第 1 草 提 供 一 个 注 清 草 证 。 
i 


邹 \ 

淘 姆 : 波 拉 德 和 保罗 A， 吉安 纳 罗斯 指出 ， 在 火车 头 案 例 中 的 某 些 
数量 有 有 版 本 问题 。 

兰 姆 - 林 布 发 现 了 一 个 拼写 错误 ， 还 建议 了 洪 清 章 记 。 

2013 春 天 在 我 的 《 贝 叶 斯 统计 计算 》 课 程 上 ， 学 生 们 提出 了 许多 
有 益 的 修正 和 建议 ， 他 们 是 : 凯 : 奥 斯 订 ， 殉 菜 尔 ' 巴 尼斯， 卡 里 . 
本 德尔 ， 瑞 秋 . 钵 伊 ， 凯 特 : 门 多 院 ， 阿 琢 ' 伊 邯 ， 本 : 克 罗 普 ， 内 和 森 . 
林 之 ， 凯 尔 麦 克 康 话 雍 ， 亚 历 克 ' 雷 德 福 ， 布 伦 丹 .里 竺 ， 埃 文 ' 圣 


湛 雷 妆 马 拉 和 马 特 .六 提 避 我 江 清 了 “正确 的 价格 "这 个 问题 的 一 些 
讨论 。 

马 库 斯 - 奥 格 伦 指出 火车 头 问题 的 原 有 声明 是 有 些 含糊 的 。 
OReily Media 的 村 斯 全 和 丹 在 校对 书 的 过 程 中 也 发 现 了 许多 可 改 
进 的 地 方 。 


第 1 章 ” 贝 叶 斯 定理 
1.1 条 件 概 率 


所 有 贝 叶 斯 统计 的 方法 都 基于 贝 叶 斯 定理 ， 如 果 有 条 件 概 率 的 学 
习 基 础 ， 意 识 到 这 一 点 很 目 然 。 因 此 我 们 会 从 概率 、 条 件 概率 开始 ， 
然后 到 贝 叶 斯 定理 ， 最 后 讨论 贝 叶 斯 统计 的 内 容 。 


概率 表示 为 0 和 1 之 间 的 数字 (包括 0 和 1) ， 含 义 是 某 一 事件 或 者 
预测 行为 的 可 信 程度 ，1 值 表示 “事件 为 真 ” 的 情形 肯定 发 生 ， 或 表述 为 
预测 成 真 ， 而 0 值 则 表示 “事件 为 真 ”这 一 情形 为 假 。 


其 他 中 间 值 表示 确定 性 的 程度 。 例 如 ，0.5 通 第 也 会 写成 50%， 意 
味 着 一 个 预测 结果 发 生 和 不 发 生 有 同等 可 能 性 。 例 如 ， 在 一 个 丘 硬 币 
事件 中 ， 人 像 面 “正面 ) 朝 上 的 概率 束 非 常 接 近 50% 。 


条 件 概率 是 带 有 某 些 (前 提 条 件 ) 背景 约束 下 的 概率 问题 。 例 
如 ， 我 想 了 解 一 下 明年 目 己 心脏 病 发 作 的 可 能 性 。 根 据 疾 病 控 制 中 心 
的 数据 ， 每 年 大 约 有 78.5 万 名 美国 人 给 患 心脏 病 ( 


http:/www.cdc.gov//heartdisease/fact.html ) 。 


美国 约 有 3.11 亿 人 ， 假 设 随 机 挑选 一 个 美国 人 ， 那 么 其 在 明年 心 
脏 病 发 作 的 概率 大 约 是 0.3%。 


”但 就 具体 个 例 而 言 ,“ 我 "可 不 古 那 个 被 随意 选中 的 美国 人 。 流 行 
病 学 家 们 已 经 明确 了 多 种 影响 心脏 病 发 作 的 风险 因素 ， 根 据 这 些 因素 
我 的 风险 则 有 可 能 高 于 或 低 于 平均 值 。 


本 人 男 ，45 多， 有 I 临 办 高 胆固醇 ， 这 些 因素 增 加 了 我 发 病 的 可 能 
性 ; 然而 ， 血 压低、 不 抽烟 这 些 因 素 则 降低 了 可 能 性 。 


把 上 面 这 些 条件 输 入 在 线 计算 器 
http:/hp2010.nhlbihin.net/atpiii/calculator.asp ， 我 发 现 自己 明年 心脏 病 
发 作 的 风险 约 为 0.2%， 低 于 全 国平 均 水 平 。 这 个 值 束 是 一 个 条 件 概 


率 ， 因 为 它 是 基于 一 系列 前 所 因素 的 ， 这 些 因素 构 成 了 我 患 心脏 病 


的 “Se 
通常 条 件 概 率 的 记号 是 p(A |B )， 表 示 在 给 定 B 条 件 下 A 事件 发 生 


的 概率 。 在 这 个 例子 中 ，A 表示 我 明年 锥 患 心 脏 病 带 的 概率 ， 而 B 表 
示 了 上 面 所 罗列 的 条 件 。 


1.2 联合 概率 


联合 概率 : 是 指 两 个 事件 同时 发 生 的 概率 。p (A 和 B ) 是 A 和 B 
事件 的 发 生 都 为 真 的 概率 。 


如 采 你 已 经 理解 了 投 人 般 例子 和 它 的 衣 景 ， 我 们 开始 学 习 下 面 的 公 


和民 
p(A 和 B)= p(A)p(B) ”提醒 表达 式 并 非 总 是 成 立 。 


例如 ， 如 采 我 投 毛 两 个 硬币 ，A 表示 第 一 枚 人 硬币 正面 朝 上 ，B 表 
示 第 二 枚 硬币 正面 朝 上 ， 那 么 p(A )= p(B ) = 0.5， 同 样 的 p(A 和 B ) = 
p(A )p(B ) = 0.25° 


但 是 上 面 公 式 仅 在 A 和 B 都 是 独立 事件 的 情况 下 才 成 立 。 即 : 已 
事件 的 结果 并 不 影 啊 或 改变 B 事件 发 生 的 概率 。 或 更 正式 表示 
为 ,，p(B|A)=p(B)。 


再 考虑 另 一 个 事件 之 间 并 不 独立 的 例子 。 假 设 A 表示 今天 下 雨 的 
事件 ，B 表示 明天 会 下 雨 的 事件 。 如 采 我 已 经 知道 今天 下 雨 ， 则 明天 
还 有 可 能 下 雨 〈 译 注 : 与 仅仅 单独 考虑 某 一 天 会 下 雨 的 概率 相 比 
较 ) ， 所 以 p(B|A)>p(B)。 

通常 意义 下 ， 联 合 概 率 表述 为 

p(A and B ) = p(A ) p(BIA) 


”对 于 任何 A、B 和 事件， 如果 任意 一 天 下 雨 的 机 会 是 0.5， 连 续 两 天 
就 不 会 是 0.25， 而 是 可 能 更 高 一 点 。 


1.3 ” 曲 奇 饼 问题 


我 们 即将 开始 讨论 到 贝 叶 斯 定理 ， 但 我 还 想 通 过 一 个 被 称 为 " 曲 柯 
饼 问 题 ? 的 例子 来 介绍 它 。 假 设 有 两 碗 曲 奇 饼 ， 砚 1 包含 30 个 香草 曲 奇 
饼 和 10 个 巧 区 力 曲 奇 饼 ， 硫 2 有 上 述 两 种 饼干 各 20 个 。 


现在 设想 你 在 不 看 的 情况 下 随机 地 挑 一 个 碗 拿 一 块 饼 ， 得 到 了 一 
块 香草 曲 奇 饼 。 我 们 的 问题 是 :从 碗 1 取 到 香草 曲 奇 饼 的 概率 是 多 少 ? 


这 束 是 一 个 条 件 概率 问题 ; 我 们 希望 得 到 概率 p( 碗 1 香草 )， 但 怎 
样 进行 计算 并 非 显 而 易 见 。 问 题 如 果 换 成 在 碗 1 中 香草 曲 奇 饼 的 概率 则 


简单 得 多 。 


p( 香 草 | 碗 TD)= 3/4 
不 巧 的 是 ，p(A |B ) 并 不 和 p(B |4 ) 相 同 ， 但 有 方法 从 一 个 计算 出 另 
一 个 : 贝 叶 斯 定理 。 
1.4 ” 贝 叶 斯 定理 


现在 ， 我 们 准备 好 进行 贝 叶 斯 定理 推导 需要 的 所 有 条 件 了 。 首 
先 ， 我 们 注意 到 ， 联 合 概率 是 乘积 可 交换 〈 乘 法 交换 律 ) 的， 即 : 


p(AandB)=p(BandA) 
对 于 任何 A ，B 表示 的 事件 都 成 立 。 
然后 ， 我 们 写 出 一 个 联合 概率 的 表达 式 : 
p(A and B ) = p(A )p(B AI) 


ee SR 和 B 的 含义 ， 因 而 可 以 对 A、B 进行 互 
区 局 O 


交换 它们 的 位 置 : 


p(B and A ) = p(B )p(A |B) 


把 这 些 表 达 式 连接 起 来 ， 我 们 得 到 下 面 的 表达 式 : 
p(B )p(A |B )= p(A )p(B IA) 


这 意味 着 我 们 有 两 种 方式 计算 联合 概率 ， 已 知 p(4 )， 乘 以 p(B |A 
); 或 者 从 男 一 方 同 ， 已 知 p(B )， 乘 以 p(A |B )。 两 种 方法 是 相同 的 。 
最 后 ， 将 上 式 除 以 p(B )， 得 到 : 


plA)P(B|A) 


plA|B) = 一 一 
plB) 


这 正 古 贝 叶 斯 定理 ! 看 起 来 不 起 眼 ， 不 过 它 会 显示 出 令 人 吃惊 的 
强大 之 处 。 


例如 ， 我 们 可 以 用 它 来 解决 曲 奇 饼 问 题 。 


假设 B | 表示 曲 奇 饼 属 于 碗 1 的 概率 ， 立 表示 曲 奇 饼 是 香草 曲 奇 饶 
的 概率 。 


市 入 贝 叶 斯 定理 我 们 得 到 : 


= plBIPIV|B!I) 
le pfT) 


等 式 左边 丈 是 我 们 希望 得 到 的 ， 一 块 香草 曲 奇 既 来 目 碗 1 的 概率 。 
等 式 的 右边 表示 : 


p(B 1 ): 这 是 我 们 忽略 得 到 曲 奇 饼 这 个 条 件 时 〈 零 条 件 下 ) 选中 
磋 1 的 概率 。 因 为 选择 碗 的 过 程 是 随机 的 ， 我 们 可 以 假设 p(B ; 
)=1/2。 

p(V1B1): 这 是 从 碗 1 得 到 一 个 香草 曲 奇 饼 的 概率 =3/4。 

p(V): 从 任意 伴 里 得 到 一 个 香草 曲 奇 饼 的 概率 。 因 为 考虑 到 选择 
太 的 机 会 均等 ， 而 且 每 个 碗 的 曲 奇 饼 数量 都 是 40， 得 到 曲 奇 饼 的 
机 会 是 相同 的 。 两 个 碗 中 香草 和 巧克力 曲 奇 饼 总 数 各 是 50 和 30， 
因此 p(V)=5/8。 


把 它们 放 在 一 起 ， 我 们 得 到 : 


(1/2)(3/4) 
p(BIIV) = 一 一 一 
D/ 


结 打 是 305。 所 以 , “得 到 一 块 香草 曲 奇 饼 ? 征 文 持 于 假设 “来 目 砚 
1” 的 证 据 ， 因 为 香草 曲 奇 饼 来 自 碗 1 的 可 能 性 更 大 。 


这 个 例子 演示 了 一 个 应 用 贝 叶 斯 定理 的 案例 : 它 提供 了 一 个 从 p(B 
4) 得 到 p(AIB ) 的 策略 。 


这 种 策略 在 解决 类 似 “ 曲 奇 饼 问题 * 的 情况 下 是 有 用 的 ， 即 从 贝 叶 
斯 等 式 的 右边 计算 要 比 左边 容易 的 情况 下 。 
1.5 历时 诠释 


还 有 另外 一 种 理解 贝 叶 斯 定理 的 思路 : 它 给 我 们 提供 的 是 一 种 根 
据 数 据 集 D 的 内 容 变 化 更 狐 假设 概率 万 的 方法 。 


这 种 对 贝 叶 斯 定理 的 理解 被 称 为 “历时 诠释 *。 


“历时 ”意味 着 某 些 事情 随 着 时 间 而 发 生 ， 在 本 例 ， 即 是 假设 的 概 
率 随 着 看 到 的 新 数据 而 变化 。 


在 考虑 有 和 DD 的 情况 下 ， 贝 叶 斯 定理 的 表达 式 可 以 改写 成 : 


p(HID) = PE PD 
p(D) 


在 这 种 解释 里 ， 每 项 意义 如 下 : 


p( 昌 ) 称 为 先 验 概率 ， 即 在 得 到 新 数据 前 某 一 假设 的 概率 。 
a 
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p(D | 日 ) 是 该 假设 下 得 到 这 一 数据 的 概率 ， 称 为 似 然 度 。 

p(D ) 征 在 任何 假设 下 得 到 这 一 数据 的 概率 ， 称 为 标准 化 常量 。 


有 些 情况 ， 我 们 可 以 基于 现 有 背景 信息 进行 计算 。 比 如 在 曲 奇 饼 
问题 中 ， 我 们 束 将 随机 选中 碗 1 或 碗 2 的 概率 假设 为 均等 。 

在 其 他 情况 下 ， 先 验 概率 是 偏 主 观 性 的 ， 对 某 一 先 验 概率 ， 理 性 
派 的 人 可 能 会 有 不 同意 见 ， 或 许 由 于 他 们 使 用 不 同 的 背景 信息 做 出 判 
断 ， 或 者 因为 他 们 针对 相同 的 前 提 条 件 做 出 了 不 同 的 解读 。 


似 然 度 古 贝 叶 斯 计算 中 最 简单 的 部 分 ， 在 曲 奇 饼 问 题 中 曲 奇 饼 来 
目 来 目 哪个 碗 ， 则 我 们 束 计 算 那 个 碗 中 香草 曲 奇 饶 的 概率 。 


标准 化 常量 则 有 些 棘手 ， 它 被 定义 为 在 所 有 的 假设 条 件 下 这 一 数 
据 出 现 的 概率 ， 但 因为 考虑 的 正定 最 一 般 的 情况 ， 所 以 不 容易 确定 这 
个 常量 在 具体 应 用 场合 的 现实 意义 。 

最 常见 的 ， 我 们 可 以 指定 一 组 如 下 的 假设 集 来 简化 。 

互 不 的 : 集合 中 ， 至 多 一 个 假设 为 真 。 

完备 的 : 集合 中 ， 至 少 一 个 假设 必 为 真 ， 且 集合 包含 了 所 有 的 假 


我 使 用 suite 这 个 词 来 表示 具备 上 述 属 性 的 假设 集 。 


在 曲 奇 饼 问 题 中 ， 仅 有 两 个 假设 : 饼干 来 自 碗 1 或 者 硫 2， 它 们 就 
征 互 乒 的 和 完备 的 。 


在 本 例 中 ， 我 们 可 以 用 全 概率 公式 计算 p(D )， 即 如 采 发 生 某 一 事 
件 有 互 不 容 的 两 个 可 能 性 ， 可 以 像 下 面 这 样 素 加 概率 : 


pPUD)=pPBi)PODIBi)+pPB2)PODDB2) 
代入 饼干 问题 中 的 实际 值 ， 得 到 : 
p(D ) = (1/2)(3/4) + (1/2)(1/2) = 5/8 
我 们 早 前 心算 得 到 的 结果 也 是 一 样 的 。 


1.6 M&M 豆 问 题 


M&M 豆 古 有 各 种 颜色 的 糖果 巧克力 豆 。 制 造 M&M 豆 的 Mars 公 司 
会 不 时 变更 不 同 颜色 巧 殉 力 豆 之 间 的 混合 比例 。 


1995 年 ， 他 们 推出 了 蓝 色 的 M&M 豆 。 在 此 前 一 袋 普 通 的 M&M 豆 
中 ， 颜 色 的 搭配 为 : 30% 褐 色 ，209% 黄 色 ，209% 红 色 ，10% 绿 色 ，10%6 
楼 色 ，10% 黄 褐色 。 这 之 后 变 成 了 : 24% 蓝 色 ，20% 绿 色 ，16% 柳 色 ， 
14% 黄 色 ，13% 红 色 ，13% 褐 色 。 


假设 我 的 一 个 朋友 有 两 袋 M&M 豆 ， 他 告诉 我 一 袋 是 1994 年 ， 一 
袋 是 1996 年 。 

但 他 没 告诉 我 具体 哪个 袋子 是 哪 一 年 的 ， 他 从 每 个 袋子 里 各 取 了 
一 个 M&M 豆 给 我 。 一 个 是 黄色 ， 一 个 是 绿色 的 。 那 么 黄色 豆 来 自 
1994 年 的 袋子 的 概率 是 多 少 ? 

这 个 问题 类 似 于 曲 奇 饼 问 题 ， 只 是 变化 了 我 抽取 样品 的 方式 〈 砚 
还 是 袋 ) 。 这 个 问题 也 给 了 我 一 个 机 会 演示 组 面 方法 : 也 就 在 仅仅 在 
纸 上 画 画 就 可 以 解决 类 似 这 样 的 问题 (译注 : 作者 为 后 续 章 节 的 计算 
型 方法 铺垫 ) 。 在 下 一 章 中 ， 我 们 将 以 计算 方法 解 这 些 问题 。 


第 一 步 是 枚 举 所 有 假设 。 取 出 黄色 M&M 豆 的 袋子 称 为 农 1， 男 一 
个 称 为 袋 2， 所 以 假设 是 : 


。 A: 袋 1 是 1994 年 的 ， 袋 2 是 1996 年 的 。 
。 也: 袋 1 是 1996 年 的 ， 袋 2 是 1994 年 的 。 


接着 我 们 设计 一 个 表格 ， 每 行 表示 每 个 假设 ， 每 列表 示 贝 叶 斯 定 
理 中 的 每 一 项 : 


先 验 概率 p(H ) 似 然 度 p(D |H ) p(H) Pp(DIH) 后 验 概率 p(H |D ) 


ET 
0 


第 一 列表 示 先 验 。 基 于 问题 的 声明 ， 选 择 p(A )=p(B )= 1/2 是 合理 


第 二 列表 示 似 然 度 ， 表 明了 问题 的 背景 信息 。 举 例 来 说 ， 如 果 A 
为 真 ， 黄 色 M&M 有 是 来 目 1994 年 的 袋 概率 20%， 而 绿色 来 目 1996 包 的 


概率 为 20%。 因 为 选择 是 独立 的 ， 我 们 将 其 相 乘 以 得 到 联合 概率 。 
第 三 列 由 前 两 列 得 到 。 此 列 的 总 和 270 是 归 一 化 常数 〈 译 注 : 参考 
全 概率 公式 ) 。 为 了 得 到 最 后 一 列 的 后 验 概 率 ， 我 们 将 第 三 列 的 值 归 
一 化 后 得 到 第 四 列 的 值 。 
忠 古 这 样 。 人 简单 吧 ? 


还 有 ， 你 可 能 会 被 一 个 细节 所 困扰 。 我 将 p(D | 玉 ) 写 成 了 百分数 的 
形式 而 不 是 概率 形式 ， 这 意味 着 它 没有 除 以 因 于 10000。 但 征 当 我 们 将 
其 除 以 归 一 化 常数 时 天 抵消 了 ， 因 此 这 不 影响 结果 。 


当 设 定 的 假设 古 互 戚 和 穷 举 的 ， 你 可 以 将 似 然 度 乘 以 任何 因子 ， 
如 采 方 便 ， 将 同一 个 因子 应 用 到 整 列 上 。 


1.7“ Monty Hall 难 题 


蒙 带 大 厅 (Monty Hall problem) 难题 可 能 是 历史 上 最 有 争议 的 概 
率 问 题 。 问 题 看 似 简 单 ， 但 正确 管 案 如 此 有 屠 常 理 以 致 很 多 人 不 能 接 
受 ， 很 多 聪明 人 都 难堪 于 自己 搞 错 了 反而 据 理 力争 ， 而 且 是 公开 的 。 


蒙 带 大 厅 是 游戏 节日 “来 做 个 交易 ”(Let’s Make a Deal) 的 主场 。 
0 
是 这 样 的 : 


察 带 癌 你 示意 三 个 关闭 的 大 门 ， 然 后 告诉 你 每 个 门 后 都 有 一 个 奖 
品 : 一 个 奖品 是 一 辆 车 ， 另 外 两 个 是 像 伦 生 着 和 假 指甲 这 样 不 值 


置 
游戏 的 目的 十 要 猜 哪个 门 后 有 和 车。 如 末 你 猜 对 了 整 可 以 拿 走 汽 


午 

你 移 挑选 一 剧 门 ， 我 们 姑且 称 之 为 [JA， 其 他 两 个 称 为 门 B 和 门 ] 
Co 
在 打开 你 选中 的 门 前 ， 为 了 增加 巧 念 ， 蒙 蒂 会 匈 打开 B 或 C 中 一 个 
没有 车 的 门 来 增加 最 念 《如果 汽车 实际 上 就 是 在 A 门 背后 ， 那 么 
蒙 带 打开 门 B 或 门 C 都 是 安全 的 ， 所 以 他 可 以 随意 选择 一 个 ) 。 
0 。 坚持 最 初 的 选择 还 是 换 到 剩 下 的 未 打开 
"J| O 


问题 是 ， 你 应 该 “坚持 ”还 是 “ 换 ”? 有 没有 区 别 ? 


大 多 数 人 都 有 强烈 的 直觉 ， 认 为 这 没有 区 别 。 剩 下 两 个 门 没有 打 
开 ， 车 在 门 A 背 后 的 机 会 是 50% 。 

但 是 ， 这 是 错 的 。 事 实 上 ， 如 果 你 坚持 选择 门 A， 中 奖 概率 只 
1/3; 而 如 果 换 到 另外 一 个 门 ， 你 的 机 会 将 是 2/3。 

运用 贝 叶 斯 定理 ， 我 们 可 以 将 这 个 问题 分 解 成 几 个 简单 部 分 ， 也 
许 这 样 可 以 说 服 自身 ,“ 正 确 ” 的 答案 实际 上 的 的 确 确 是 对 的 。 


首先 ， 我 们 应 该 对 数据 进行 仔细 摘 述 。 在 本 例 中 为 D 包括 两 个 间 
分 : 蒙 带 打开 了 门 B， 而 且 没 有 车 在 后 面 。 


接 下 来 ， 我 们 定义 了 三 个 假设 A，B 和 C， 表 示 假 设 车 在 门 A， 
门 B， 或 门 C 后 面 。 同 样 ， 采 用 表格 法 : 


Ws ls lo 
EE E 


填写 先 验 很 容易 ， 因 为 我 们 被 告知 奖品 十 随机 配置 的 ， 这 表明 该 
车 可 能 在 任何 门 后 面 。 


定义 似 然 度 需要 一 些 思考 ， 在 充分 合理 的 考虑 后 ， 我 们 确信 正确 
的 似 然 度 如 下 : 


。 考虑 假设 A: 如 果 汽 车 实际 上 是 在 门 A 后 ， 蒙 蒂 可 以 安全 地 打开 门 
B 或 门 C。 所 以 他 选择 门 B 的 概率 为 2。 因 为 车 实际 上 是 在 门 A 
后 ， 也 就 是 说 车 不 在 门 B 后 的 概率 是 1。 

。 考 虑 假设 B: 如 果 汽 车 实际 上 是 在 门 B 后 ， 蒙 蒂 不 得 不 打开 门 C， 
这 样 他 打开 门 B 的 概率 就 是 0 (译注 :也 就 是 这 个 假设 的 似 然 度 为 
0,， 不 可 能 发 生 ) 。 

。 最 后 考虑 假设 C: 如 果 车 是 在 门 C 后 ， 蒙 蒂 打 开门 B 的 概率 为 1， 发 
现 车 不 在 那儿 的 概率 为 1 (译注 ， 因 为 在 选手 已 经 选 了 A 门 这 个 情 
况 下 ， 可 供 蒙 蒂 增 加 悬念 开门 的 选择 只 有 B 和 C， 而 假设 C 有 车 ， 


蒙 蒂 肯 定 不 会 选 ， 因 此 蒙 蒂 会 打开 B 门 的 概率 为 1， 也 就 是 在 这 个 
假设 下 ， 数 据 D 的 似 然 度 为 1) 


现在 我 们 已 经 完成 有 难度 的 部 分 了 ， 剩 下 无 非 就 是 算术 。 人 第 三 列 
的 总 和 为 2， 除 以 后 得 到 p(A |D )=13，p(CID) = 2/3， 所 以 你 最 好 是 
换个 选择 。 


该 问题 有 许多 变形 。 贝 叶 斯 方法 的 优势 之 一 束 是 可 以 推广 到 这 些 
变形 问题 的 处 理 上 。 

例如 ， 设 想 索 还 总 是 尽 可 能 选择 门 B， 且 只 有 在 迫不得已 的 时 候 
才 选 门 C《〈 比 如 车 在 门 B 后 ) 。 在 这 种 情况 下 ， 修 正 后 的 表 如 下 : 


先 验 概率 p(H ) 似 然 度 p(D |H ) p(H)p(DIH) 后 验 概率 p(H |D ) 


Ww | 
Wa in hn 


唯一 的 变化 是 p(D IA)。 如 果 车 在 门 A 后 ， 蒙 蒂 可 以 选择 打开 B 或 


C。 但 在 这 个 变形 问题 里 面 ， 他 总 是 选择 B， 因 此 p(DIA)=1。 


因此 ， 对 A 和 C， 似 然 度 是 相同 的 ， 后 验 也 是 相同 的 : p(A |D ) = 
p(C ID ) = 1/2， 在 这 种 情况 下 ， 蒙 符 选 择 B1] 显 示 不 了 车 位 置 的 任何 信 
已 ， 所 以 无 论 选手 选择 坚持 不 变 还 是 改变 都 无 关 紧 要 。 


有 反 过 来 的 情况 下 ， 如 有 果 蒙 带 打开 1 门 C， 我 们 就 知道 p(B1D )= 1 ( 译 
注 ， 因 为 绽 带 总 是 优先 选择 | ]jB， 而 门 D 古 他 打开 了 1]C， 因 此 在 假设 
车 在 门 B 后 的 前 提 下 ， 他 必然 会 打开 | JC， 概 率 为 1，PBp(B |D )=1) 


本 章 中 我 介绍 了 蒙 带 问题 ， 因 为 我 觉得 这 里 有 它 的 趣味 性 ， 也 因 
为 贝 叶 斯 定理 使 问题 的 复杂 性 更 易 控 制 。 但 这 并 不 算是 一 个 典型 的 贝 
叶 斯 定理 应 用 ， 所 以 如 果 你 觉得 它 令 人 困惑 ， 没 什么 好 担心 的 
1.8 讨论 


对 于 涉及 条 件 概 率 的 很 多 问题 ， 贝 叶 斯 定理 提供 了 一 个 分 而 治之 
的 策略 。 如 果 p(A |B ) 难 以 计算 ， 或 难以 用 实验 衡量 ， 可 以 检查 计算 贝 


叶 斯 定理 中 的 其 他 项 是 否 更 容易 ， 如 p(B |A )，p(A ) 和 p(B )。 


如 采 莹 带 大 厅 问 题 让 你 觉得 有 趣 ， 我 在 一 入 文章 “All your Bayes 
are belong to us” 中 收集 了 很 多 类 似 问 题 ， 你 可 以 去 单 击 链接 进行 阅读 
http://allendowney.blogspot.com/2011/10/all-your-bayes-are-belong-to- 
us.html ° 


第 2 章 ”统计 计算 
2.1 分 布 


在 统计 上 ， 分 布 是 一 组 值 及 其 对 应 的 概率 。 


例如 ， 如 末 深 动 一 个 六 面 角 于 ， 可 能 的 值 是 数字 1 至 6， 与 每 个 值 
关联 的 概率 是 1/6。 


再 举 一 个 例子 ， 你 应 该 有 兴趣 了 解 在 日 常 的 英语 使 用 中 每 个 单词 
出 现 的 次 数 。 你 可 以 建立 一 个 包含 每 个 字 及 它 出 现 的 次 数 的 分 布 。 

为 了 表示 Python 中 的 分 布 ， 可 以 使 用 一 个 字典 映 喘 某 个 值 和 它 的 
概率 。 我 编写 了 一 个 名 为 Pmf 的 类 ， 利 用 Python 字 典 实现 了 上 壕 功 
能 ， 而 且 提 供 了 一 些 有 用 的 方法 。 为 了 对 应 概率 质量 函数 这 种 分 布 的 
数学 表示 法 ， 我 将 其 命名 为 Pmf 。 

Pmf 的 定义 在 一 个 我 为 本 书 完成 的 Python 模块 thinkbayes.py 
中 。 可 以 从 http://thinkbayes.com/thinkbayes.py 下 载 。 欲 了 解 更 多 信息 
参见 前 言 的 “代码 指南 ”。 


要 使 用 Pmf ， 可 如 下 导入 : 


from thinkbayes.py import Pmf 


下 面 的 代码 建立 一 个 Pmf 来 表示 六 面 角 子 的 结果 分 布 : 


pmf = Pmf() 
for x in [1,2,3,4,5,6]: 


pmf .Set(x, 1/6.0) 


Pmf 创建 一 个 空 的 没有 赋值 的 pmf。Set 方法 设置 每 个 值 的 概率 
为 1/6。 


这 里 是 另 一 个 例 和 于， 计算 每 个 单词 在 一 个 词 序列 中 出 现 的 次 数 : 


pmf = Pmf() 
for word in word list: 
pmf .Incr(word, 1) 


Incr 为 每 个 单词 的 相应 “概率 ”加 1。 如果 一 个 词 还 没有 出 现在 
Pmf 中 ， 那 么 就 将 这 个 词 添 加 进去 。 

我 把 < 概率 ”加 上 引号 是 因为 在 这 个 例子 中 概率 还 没有 归 一 化 ， 也 
就 是 说 它们 的 累加 和 不 是 1， 因 此 不 是 真正 的 概率 。 但 在 本 例 中 单词 计 
数 与 概率 成 正比 。 所 以 当 完 成 了 所 有 的 计数 ， 就 可 以 通过 除 以 计数 的 
总 值 来 计算 得 到 概率 。 

Pmf 提供 了 一 种 Normalize 方法 来 实现 上 述 功 能 : 


pmf .Normalize() 


一 旦 有 一 个 Pmf 对 象 ， 你 可 以 像 下 面 这 样 得 到 任何 一 个 值 相关 联 
的 概率 : 


print pmf.Prob('the ' ) 


这 会 打印 输出 单词 the" 在 词 序列 中 出 现 的 频率 。 
Pmf 使 用 Python 字典 来 存储 值 及 其 概率 ， 所 以 Pmf 中 的 值 可 以 是 任 
We ° 概率 可 以 是 任意 数值 类 型 ， 但 通常 是 浮 点 数 
float 类 型 ) 。 


2.2 ” 曲 奇 饼 问 题 


在 贝 叶 斯 定理 的 语 境 下 ， 可 以 很 目 然 地 使 用 一 个 Pmf 映 射 每 个 假 
设 和 对 应 的 概率 。 


在 曲 奇 饼 问 题 里 面 ， 该 假设 是 B; 和 B, 。 在 Python 中 可 以 使 用 字符 
串 来 表示 它们 : 


pmf = Pmf() 
pmf,.Set('Bowl1', 0.5) 


pmf.Set('Bowl2', 0.5) 


这 一 分 布 包含 了 对 每 个 假设 的 先 验 概率 ， 称 为 先 验 分 布 。 


要 更 新 基于 新 数据 ( 拿 到 一 块 香草 曲 奇 饼 ) 后 的 分 布 ， 我 们 将 先 
验 分 别 乘 以 对 应 的 似 然 度 。 


从 硫 1 拿 到 香草 曲 奇 饼 的 可 能 性 是 3044， 和 爸 2 的 可 能 性 是 1/2。 


pmf .Mult('Bowl1', 0.75) 
pmf .Mult('Bowl2', 0.5) 


如 你 所 愿 ，Mult 将 给 定 假 设 的 概率 乘 以 已 知 的 似 然 度 。 


更 新 后 的 分 布 还 没有 归 一 化 ， 但 由 于 这 些 假设 互 不 且 构 成 了 完全 
集合 (意味 着 完 全 包含 了 所 有 可 能 假设 ) ， 我 们 可 以 进行 重新 归 一 化 


pmf .Normalize() 


其 结果 是 一 个 包含 每 个 假设 的 后 验 概 率 分 布 ， 这 就 是 所 说 的 后 验 
分 布 。 
最 后 ， 我 们 可 以 得 到 假设 碗 1 的 后 验 概率 如 下 : 


print pmf.Prob('Bowl 1°') 


答案 是 0.6。 你 可 以 从 http:Nthinkbayes.com/cookie.py 下 载 这 个 例 
次 了 解 更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 


2.3” 贝 叶 斯 框架 


在 继续 讨论 其 他 的 问题 前 ， 我 想 在 上 一 节 的 基础 上 重 写 代 码 以 使 
其 更 通用 。 首 和 我 将 定义 一 个 类 来 封 逆 与 此 相关 的 代码 : 


class Cookie(Pmf ): 


def _ init_ _(self,hypos): 
Pmf. init (self) 
for hypo in hypos: 
self.Set(hypo,1) 
self.Normalize() 


Cookie 对 和 象 是 一 个 映 冉 假 设 到 概率 的 Pmf 对 象 。 init _ 方法 
给 每 个 假设 赋予 相同 的 先 验 概率 。 如 上 一 节 中 就 有 两 种 假设 : 


hypos= ['Bowl1', "Bow]12 '] 
pmf =Cookie(hypos) 


Cookie 类 提供 了 Update 方法 ， 它 以 data 为 参数 并 修正 相应 的 概 


def Update (self,data): 
for hypo in self.Values!(): 
like= self.Likelihood(data,hypo) 
self .Mult (hypo, like) 
self.Normalize() 


Update 过 历 suite 中 的 每 个 假设 ， 并 将 其 概率 乘 以 数据 在 某 一 假 
设 下 的 似 然 度 ， 似 然 度 由 Likelihood 计算 : 


mixes = { 
'Bowl 1':dict(vanilla=0.75, chocolate=0.25), 
"Bowl 2':dict(vanilla=0.5, chocolate=0.5), 


} 


def Likelihood(self, data, hypo): 
mix = self.mixes[hypo] 
like = mix[datal 


return like 


Likelihood 使 用 mixes ， 它 使 用 Python 的 字典 结构 来 映射 碗 名 
和 在 碗 中 曲 奇 饼 的 混合 比例 。 


如 下 面 这 样 进行 更 新 : 


然后 我 们 就 可 以 打印 输出 每 个 假设 的 后 验 概率 : 


for hypo , prob in pmf.Items(): 
print hypo, prob 


结 末 和 我 们 之 前 得 到 的 结论 一 样 。 比 起 我 们 在 前 面 章 世 看 到 的 ， 
这 段 代 码 更 复杂 。 


一 个 优点 是 ， 它 可 以 推广 到 从 同一 个 碗 取 不 只 一 个 曲 奇 饼 ( 帝 巷 
换 ) 的 情形 : 


dateset= ['vanilla', 'chocolate', 'vanilla'] 
for data in dataset: 


pmf .Update(data) 


男 一 优点 十， 它 提供 了 解决 许多 类 似 问题 的 框架 。 在 下 一 广 中 ， 
我 们 将 解决 去 带 大 厅 问 题 的 计算 ,然后 看 看 框架 的 哪些 部 分 相同 。 


本 下 中 的 代码 可 以 从 http:Mthinkbayes.comycookie2.py 获得 。 欲 了 
解 更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 


2.4 Monty Hall 难 题 
为 了 解决 蒙 带 大 厅 (Monty Hall) 问题 ， 我 将 定义 一 个 新 的 类 : 


class monty(Pmf ): 


def _ init (self, hypos): 
Pmf. init (self) 


for hypo in hypos: 
self.Set(hypo, 1) 
self.Normalize() 


到 目前 为 止 ， 绽 带 大 厅 和 曲 奇 饼 是 完全 一 样 的 。 创 建 Pmf 的 代码 
也 一 样 ， 除 了 假设 的 名 称 : 


hypos="'ABC' 
pmf =Monty(hypos) 


对 Update 的 调用 几乎 是 相同 的 : 


data='B' 
pmf .Update(data) 


Update 的 实现 也 是 完全 一 样 的 : 


def Update (self, data): 
for hypo in self.Values (): 
like = self.Likelihood(data, hypo) 


self .Mult (hypo, like) 
self.Normalize() 


唯一 需要 些 额 外 工作 的 是 Likelihood : 


def Likelihood (self,data,hypo): 
if hypo==data: 
return 0 
elif hypo=="'A': 
return 0.5 


else: 
return 1 


最 后 ， 打 印 输出 的 结 末 是 一 样 的 : 


for hypo, prob in pmf.Items( ): 
print hypo,prob 


答案 是 


33333333333 


66666666667 


在 本 例 中 ，Likelihood 的 编写 有 一 点 点 复杂 ， 但 该 贝 叶 斯 框架 
的 Update 很 简单 。 本 和 中 的 代码 可 以 从 http:/thinkbayes.com/monty.py 
获得 。 谷 了解 更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 


2.5 “封装 框架 


现在 ， 我 们 看 看 框 染 的 哪些 元 素 是 相同 的 ， 这 样 我们 就 可 以 把 它 
们 封 效 进 一 个 Suite 对 象 ， 即 一 个 提供 ”init _ ,Update 和 
Print 方法 的 pmf 对 象 : 


class Suite(Pmf) 
“代表 一 套 假设 及 其 概率 。” 


def _ init (self, hypo=tuple()): 
“初始 化 分 配 。” 


def Update(self, data): 
“更 新 基于 该 数据 的 每 个 假设 。” 


def Print (self): 
“打印 出 假设 和 它们 的 概率 。” 


Suite 的 实现 在 thinkbayes .py 中 。 要 使 用 Suite 对 象 ， 你 
应 当 编 写 一 个 继承 自 Suite 的 类 ， 并 自行 提供 Likelihood 方法 的 实 
现 。 例 如 ， 这 是 一 个 以 蒙 带 大 厅 问 题 改写 的 使 用 Suite 的 方案 : 


from thinkbayes import Suite 
class Monty(Suite): 
def Likelihood (self,data,hypo): 
If hypo ==data: 
return 0 


elif hypo=="'A': 
return 0.5 
else: 
return 1 


而 下 面 是 一 个 使 用 这 个 类 的 代码 : 


Suite=Monty( 'ABC ' ) 
suite.Update('B') 


suite.Print() 


你 可 以 从 http:Nthinkbayes.com/monty2.py 下 载 这 个 例子 。 更 多 信 
居 见 前 言 的 “代码 指南 ”。 


2.6 MRIM 豆 问题 


我 们 可 以 使 用 Suite 框架 来 解决 M&M 豆 的 问题 。 除 了 编写 
Likelihood 有 点 环 手 ， 其 他 一 切 都 很 简单 。 


首先 ， 需 要 对 1995 年 之 前 和 之 后 的 颜色 混合 情况 进行 封装 : 


mix94=dict(brown= 30, 
yellow= 20， 
red= 20, 
green= 10， 
orange= 10, 
tan= 10) 


mix96=dict(blue= 24， 
green= 20, 
orange= 16, 


yellow= 14， 
red= 13, 
brown= 13) 


然后 ， 封 法 假设 : 


hypoA =dict(bag1 = mix94, bag2 = mix96) 


hypoB =dict(bag1 = mix96, bag2 = mix94) 


hypoA 表示 假设 袋 1 是 1994 年 ， 袋 2 是 1996 年 。hypoB 是 相反 的 组 


接 下 来 ， 从 假设 的 名 称 来 映射 其 舍 义 : 


hypotheses=dict(A=hypoA，B=hypoB) 


最 后 ， 开 始 编 写 Likelihood。 在 这 种 情况 下 ， 假 设 hypo 是 一 
个 A 或 B 的 字符 串 ， 数 据 是 一 个 指定 了 袋子 年 份 和 颜色 的 元 组 。 


def Likelihood(self, data, hypo): 
bag, color = data 
mix = self.hypotheses[hypol][bag] 


like = mix[color] 
return like 


下 面 是 创建 该 suite 对 象 并 进行 更 新 的 代码 : 


suite = M and _M('AB') 


suite.Update(('bag1i', 'yellow')) 
suite.Update(('bag2', 'green')) 


suite.Print() 


结 采 如 下 : 


A 0.740740740741 
B 0.259259259259 


A 的 后 验 概率 大 约 是 20/27， 正 是 我 们 之 前 得 到 的 。 


本 下 中 的 代码 可 以 从 http:Nthinkbayes.com/m_and_m.py 获得 。 欲 
了 解 更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 


2.7 讨论 
本 章 介 绍 了 Suite 类 ， 它 封装 了 贝 叶 其 update 框架 。 


Suite 是 一 个 抽象 类 (abstract type) ， 这 意味 着 它 定 义 了 
Suite 应 该 有 的 接口 ， 但 并 不 提供 完整 的 实现 。Suite 接口 包括 
Update 和 Likelihood 方法 ， 但 只 提供 了 Update 的 实现 ， 而 没有 
Likelihood 的 实现 。 


具体 类 (concrerte type) 是 继承 自 抽 象 父 类 的 类 ， 而 且 提 供 了 缺 
失 方 法 的 实现 。 例 如 ，Monty 扩展 目 Suite ， 所 以 它 继 承 了 Update 
并 且 实 现 了 Likelihood 。 

如 有 果 你 熟悉 设计 模式 ， 你 可 能 会 意识 到 这 其 实 是 设计 模式 中 模板 
方法 的 一 个 例子 。 你 可 以 从 
http://en.wikipedia.org/wiki/Template_method_pattern 了 解 这 个 模式 。 


大 多 数 在 以 下 章 市 中 的 例子 遵循 相同 的 模式 ， 对 于 每 个 问题 我 们 
定义 一 个 扩展 的 Suite 对 象 ， 继承 了 人 Update 方法 ， 并 提供 了 
Likelihood 。 在 少数 情况 下 ， 会 重 写 Update 方法 ， 通 常 是 为 了 提 
高 性 能 的 缘故 。 


2.8 ”练习 


练习 2-1 。 


在 第 11 页 的 “ 贝 叶 斯 框架 ”里 面 ， 我 提 到 了 曲 奇 饼 问 题 的 解法 是 简 
化 的 ， 是 曲 奇 饼 有 补充 的 取 多 个 饼 的 情况 (有 放 回 的 情况 ，。 


但 更 可 能 的 情况 是 ， 我 们 吃 择 了 取出 的 曲 奇 链 ， 那 么 似 然 度 就 依 
赖 于 之 前 的 取 曲 奇 饼 行 为 ( 曲 奇 饼 少 了 ) 。 


修改 本 章 中 的 解法 以 处 理 没 有 曲 奇 饼 补 充 的 情况 。 提 示 : 添加 
Cookie 的 实例 变量 来 表示 兢 的 假设 状态 ， 并 据 此 修改 似 然 度 。 你 可 
能 要 定义 一 个 Bowl 对 象 。 


第 3 章 ”估计 


3.1 内 子 问题 

假设 我 有 一 盒 山 子 ， 里 面 有 4 面 的 山子 、6 面 的 山子 、8 面 的 山子 、 
12 面 的 山子 和 20 面 的 山子 各 1 个 。 如 果 曾 经 玩 过 游戏 《 龙 与 地 下 城 》， 
你 当然 会 明白 我 的 所 指 。 


假如 我 随机 从 盒子 中 选 一 个 舰 于， 转动 它 得 到 了 6“。 那 么 每 一 个 散 
子 被 选中 的 概率 是 多 少 ? 


我 通过 一 个 三 步 策 略 来 解决 这 个 问题 。 
1. 选择 假设 的 表示 方法 。 

2.， 选择 数据 的 表示 方法 。 

3， 编写 似 然 度 函 数 。 


在 前 面 的 例子 中 我 用 字符 串 来 表示 假设 和 数据 ， 但 散 子 问题 中 我 
闻 司 用 数字 和 


确切 地 说 我 将 使 用 整数 4、6、8、12 和 20 来 表示 假设 : 


suite=Dice([ 4, 6, 8, 12, 20 |]) 


为 外 ， 从 1 到 20 的 整数 作为 数据 。 有 了 这 些 表 达 式 ， 编 写 似 然 久 数 
束 很 简单 了 : 


class Dice(Suite): 
def Likelihood(self, data, hypo): 
if hypo < data: 


return 0 
else: 
return 1.0/hypo 


这 里 Likelihood 的 原理 是 : 如果 hypo<data ， 意 味 着 投 般 子 
值 大 于 骨 子 的 面 数 ， 显 然 这 是 一 个 不 可 能 的 情形 ， 所 以 似 然 度 是 0。 


男 外 的 情形 下 ， 问 题 变 成 “考虑 到 所 有 假设 的 点 数 ， 得 到 某 个 点 数 


结 采 的 机 会 是 多 少 ? ” 
答案 征 1/hypo 无 论 数据 是 什么 。 


下 面 是 使 用 update (如 果 转 动 得 到 6) 的 语句 声明 : 


suite.Update (6) 


后 验 分 布 的 结 采 如 下 : 


94117647059 
2 0.196078431373 
20 0.117647058824 


4 0.0 

6 0.392156862745 
80.2 

1 


当 得 到 6 后 ， 骨 子 是 4 面 的 概率 是 0。 最 可 能 的 备 选 是 6 面 骨 ， 但 也 
有 约 12% 的 可 能 是 20 面 般 。 


如 果 我 们 多 摇 几 次 ， 得 到 6，8，7，7，5，4 这 样 一 组 数据 的 情况 
下 呢 ? 


for roll in [ 6, 8, 7, 7, 5, 4 ] : 
suite.Update (roll) 


结合 该 组 数据 ， 可 以 去 掉 6 面 角 的 可 能 性 了 (因为 有 大 于 6 的 
值 ) ，8 面 山 看 起 来 可 能 性 很 大 。 


结 采 如 下 : 


43248453672 
2 0.0552061280613 


4 0.0 
6 0.0 
8 0.9 
工 


20 0.0015454182665 


94% 的 可 能 我 们 转动 了 一 个 8 面 骨 ， 同 时 还 有 1% 可 能 是 一 个 
20 面 人 般 。 


仍 子 问题 参考 了 我 在 Sanjoy Mahajan 的 贝 叶 斯 推论 课 上 看 到 的 一 个 


例子 
你 可 以 从 http:NHthinkbayes.com/dice.py 下 载 代码 。 欲 了 解 更 多 信 

已 ， 请 参见 前 言 的 “代码 指南 ”。 

3.2 火车头 问题 


我 是 在 弗 雷 德里 克 : 莫 斯 泰勒 的 《五 十 个 概率 难题 的 解法 》 (多 佛 
出 版 社 ，1987) 一 书 中 发 现 火 车 头 问 题 的 : 


铁路 上 以 1 到 N 命名 火车 涉 。 有 一 天 你 看 到 一 个 标号 60 的 火车 
头 ， 请 估计 铁路 上 有 多 少 火车 头 ? 


基于 这 一 观察 结 末 ， 我 们 知道 铁路 上 有 60 个 或 更 多 的 火车 头 。 但 
这 个 数字 到 民生 多 少 ? 


要 应 用 贝 叶 斯 进行 推理 ， 我 们 可 以 将 这 个 问题 分 成 两 步 又 进行 : 

1. 在 得 到 数据 之 前 ， 我 们 对 N 的 认识 是 什么 ? 

2. 已 知 一 个 NN 的 任意 值 后 ， 得 到 数据 (“标志 为 60 号 的 火车 头 ”) 
的 似 然 度 ? 

第 一 个 问题 的 答案 束 是 问题 的 前 置 概率 。 第 二 个 问题 是 似 然 度 。 

在 选择 前 置 概率 上 ， 我 们 还 没有 太 多 的 基本 信息 ， 但 我 们 可 以 从 
一 些 简 单 情况 开始 ， 再 考虑 进一步 的 方法 。 假 设 N 可 以 是 从 1 到 1000 等 
概率 的 任何 值 。 


hypos= xrange (1, 1001) 


接着 我 们 需要 的 是 一 个 似 然 画 数 。 先 假设 存在 一 个 有 N 个 火车 头 
的 车 队 ， 我 们 看 到 60 号 火车 头 的 概率 是 多 少 ?” 假设 只 有 一 个 列车 运营 
公司 〈 或 者 只 有 一 个 我 们 关注 的 公司 ) ， 看 到 任意 一 个 火车 头 有 同等 
可 能 ， 那 么 看 到 的 任何 特定 火车 头 的 机 会 为 VN 。 


似 然 度 函 数 如 下 : 


class Train(Suite) 
def Likelihood(self, data, hypo) 
If hypo<data: 
return 0 
else 


return 1.0/hypo 


看 起 来 很 熟悉 ， 似 然 函 数 在 火车 头 问题 般 子 问题 上 是 相同 的 。 
Update 如 下 : 


suite=Train (hypos ) 
suite.Update (60 ) 


因为 有 太 多 的 假设 〈1000) 要 打印 输出 ， 所 以 我 绘制 了 如 图 3-1 所 
示 的 结果 。 意 料 之 中 的 是 ，N 中 60 以 下 的 所 有 值 都 被 去 掉 了 。 
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6 
列车 数量 
图 3-1 ”火车头 问题 的 后 验 分 布 ， 基 于 均匀 分 布 的 先 验 

如 果 非 要 猜测 的 话 ， 最 可 能 的 值 是 60 。 这 似乎 算 不 上 很 好 的 结 
果 ， 毕 苋 ， 想 想 你 恰好 看 到 最 高 标志 号 火车 头 的 机 会 是 多 少 昵 (应 该 
不 高 吧 ) ? 不 过 ， 如 果 想 使 猜 到 的 答案 完全 正确 的 可 能 性 最 大 化 ， 你 
应 该 猜 60 。 

不 过 ， 这 还 不 是 我 们 的 目标 。 另 一 个 可 选 的 方法 是 计算 后 验 概 率 
的 平均 值 分 布 : 


def Mean(suite): 
total= 0 
for hypo, prob in suite.Items (): 


total + = hypo*prob 
return total 
print Mean(suite) 


或 者 你 可 以 用 由 Pmf 提 供 的 非常 类 似 的 方法 : 


print suite.Mean () 


后 验 的 平均 值 是 333， 所 以 要 是 你 想 最 大 限度 地 减少 错误 ， 这 也 许 
是 一 个 很 好 的 猜测 结果 。 

如 果 你 一 思 又 一 遍地 玩 这 个 猜谜 游戏 ， 使 用 后 验 概 率 的 平均 值 来 
作为 估计 值 会 减少 从 长 远 来 看 的 均 方 差 (参考 
http://en.wikipedia.org/wiki/Minimum_mean_square_ error ) 。 

你 可 以 从 http:Nthinkbayes.com/train.py 下 载 这 个 例子 。 如 需 更 多 信 

居 参 见 前 言 的 “代码 指南 ”。 


3.3 ”怎样 看 得 先 验 概率 ? 
为 了 进一步 解决 火车 头 问题 ， 我 们 必须 进行 一 些 假设 


其 中 一 些 古 相当 武断 的 。 尤 其 当 我 们 选择 了 在 1-1000 则 的 均匀 随机 
分 布 的 先 验 概率 。 其 实 并 没有 特别 的 理由 选择 1000 作 为 上 界 或 均匀 随 
机 来 作为 分 布 特征 。 


相信 一 个 运 00 下 站 IA 区 人 全] 字 个 上 疯 计 但 一个 理 
性 点 的 人 可 能 会 对 这 一 问题 做 出 更 多 或 更 少 的 猜测 。 


因此 ， 我 们 可 能 想 知 道 是 否 后 验 概 率 分 布 对 这 些 假设 人 敏感。 仅仅 
依赖 一 次 观察 的 小 量 数据 ， 情 况 可 能 真是 如 此 的 敏感) 。 


回忆 一 下 ， 从 1 到 1000 的 均匀 分 布 的 先 验 概率 ， 后 验 概率 的 平均 值 
是 333。 人 我 们 得 到 的 后 验 平均 值 为 207， 一 个 2000 的 上 
界 后 验 平均 值 为 552。 


和 所 以 结果 很 糟 (猜测 结果 对 上 界 敏 感 ，。 有 两 种 方法 继续 进 


。 获取 更 多 的 数据 。 
。 更 多 的 痛 景 信息 。 


有 了 更 多 的 数据 后 ， 基 于 不 同 的 移 验 概 率 ， 后 验 分 布 趋 于 收敛 。 


例如 ， 假设 除了 列车 60 我 们 也 看 到 列车 30 和 90。 我 们 可 以 这 样 更 


新 分 


for data in[60，30，90]: 
suite.Update (data) 


采用 这 些 数据 时 ， 后 给 概率 的 均值 是 


这 样 莽 异 束 较 小 了 。 


3.4 ”其 他 先 验 概率 


如 琳 没 有 更 多 的 数据 ， 男 一 个 方法 是 通过 收集 有 有 景 资料 优化 先 


JY 


大 型 和 小 型 公司 有 同等 可 能 性 的 假设 也 许 相 当 不 合理 ， 大 型 公司 
可 能 有 1000 台 火车 头 ， 小 型 公司 仅 有 1 人 台 火 车 头 。 


通过 一 些 努 力 ， 我 们 很 有 可 能 发 现在 观察 区 域内 火车 运营 公司 的 
清单 ， 或 者 可 以 采访 铁路 运输 专家 来 收集 这 些 公司 一 般 规模 的 信息 。 


但 是 ， 即 使 没有 深入 了 解 铁路 产业 的 一 些 具体 情况 ， 我 们 也 可 以 
做 一 些 猜 测 。 在 大 多 数 领域 ， 有 大 量 小 型 公司 ， 一 些 中 型 公司 ， 一 个 
到 两 个 非常 大 型 的 公司 。 


事实 上 ， 公 司 规模 的 分 布 往往 遵循 需 律 ， 参 考 罗 伯 特 ' 阿 克 斯 特 尔 
在 《科学 》 杂 志 上 的 报道 ( 
http:/www.sciencemag.org/content/293/5536/1818.full.pdf ) 

这 规律 表明 ， 如 有 果 少 于 10 个 火车 头 的 公司 有 1000 家 ，100 个 火车 头 
的 公司 可 能 有 100 家 ，1000 个 火车 头 的 公司 有 10 家 ，10000 个 火车 头 的 
公司 可 能 仅 有 1 家 。 


在 数学 上 ， 才 律 表 示 公司 的 数量 与 公司 规模 成 反比 ， 或 


PNMFIz) cx (2) 
I 


其 中 PMF(x ) 征 x 的 概率 质量 函数 ，a 是 一 个 通 第 接近 于 1 的 参数 。 


我 们 可 以 构造 一 个 服从 器 律 分 布 的 先 验 如 下 : 


class Train (Dice): 


def__init _ (self, hypos, alpha = 1.0): 
Pmf._ init _ (self) 
for hypo in hypos: 
self.Set (hypo, hypo** (-alpha)) 
self.Normalize () 


而 下 面 是 生成 前 置 概率 的 代码 


hypos=range(1,1001) 
suite=Train(hypos) 


再 次 说 明 ， 上 限 是 任意 的 ， 但 对 于 和 客 律 分 布 的 先 验 概率 ， 后 验 概 
率 对 这 一 选择 的 敏感 性 较 小 。 


图 3-2 表 示 了 基于 需 律 后 与 之 前 基于 均匀 随机 后 验 概 率 的 比较 。 


一 = 均匀 分 布 
一 一 稳 律 分 布 


概率 值 


0 200 400 600 800 1000 
列车 数量 


图 3-2 “前 验 为 震 律 的 后 验 分 布 ， 对 比 于 均匀 前 验 分 布 
考虑 了 大 律 分 布 作 为 衣 景 唤 料 后 。 我 们 可 以 请 除 大 于 700 的 N 值 


O 


机 人 在 观察 到 列车 30、60 和 90 时 ， 后 验 概 率 
刀 男 | 是 ; 


现在 的 差异 小 得 多 了 (考虑 不 同上 界 的 假设 ) 。 事 实 上 ， 考 虑 一 
个 任意 大 的 上 界 ， 平 均值 都 收敛 于 134 。 


所 以 基于 需 律 分 布 的 先 验 概 率 是 比较 现实 的 ， 因 为 它 基 于 公司 规 
模 的 一 般 情 况 ， 并 且 在 实际 中 表现 得 更 好 。 


你 可 以 从 http:Nthinkbayes.com/train3.py 下 载 本 万 程序 的 例子 。 欲 
了 解 更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 
3.5 ”置信 区 间 


一 旦 计算 出 的 后 验 分 布 ， 通 过 单 点 估计 或 区 间 对 后 验 分 布 进行 总 
结 通常 是 有 用 的 。 

对 于 点 估计 ， 通 常 使 用 平均 数 、 中 位 数 或 最 大 似 然 值 。 

对 于 区 间 ， 我 们 通常 给 出 两 个 计算 值 ， 使 得 未 知 量 有 90% 的 可 能 落 
(或 者 任何 其 他 的 概率 值 ) 。 这 些 值 定 义 了 一 个 置信 
又 间 。 


计算 置信 区 间 的 一 个 简单 方法 是 在 后 验 概 率 分 布 中 素 加 其 中 的 概 
率 ， 并 记录 对 应 于 概率 59% 和 95% 的 值 。 也 就 是 说 ， 第 5 和 第 95 百 分 位 。 


thinkbayes 提供 了 一 个 函数 计算 百 分 位 数 : 


= 


def Percentile(pmf, percentage): 
p = percentage / 100.0 
total = 0 
for val, prob in pmf.Items(): 


total += prob 
If total >= p: 
return val 


下 面 是 一 个 其 应 用 代码 ; 


interval = Percentile(suite, 5), Percentile(suite, 95) 
print interval 


在 前 面 的 示例 〈 看 到 了 三 个 火车 ， 且 呈 需 律 分 布 的 先 验 概 率 的 火 
车 头 问 题 ) 中 90% 置 信 区 间 为 〈91,243) 。 如 此 大 的 范围 其 实 确切 的 表 
(尽管 平均 值 收 敛 了 ) 我 们 仍然 相当 不 确定 究竟 有 多 少 火 车 头 存 
自 加 O 


3.6” 票 积 分 布 函数 


在 上 一 广 中 ， 我 们 通过 数值 迭代 计算 出 百分比 和 Pmf 的 概率 。 如 末 
我 们 需要 计算 多 个 百 分 位 数 ， 更 有 效 方法 是 使 用 累积 分 布 函数 ， 或 
Cdf 。 


由 于 包含 有 某 个 分 布 的 相同 的 信息 ， 在 这 个 意义 上 Cdf 和 Pmf 是 
> 并 可 以 随时 从 一 个 转换 到 另 一 个 。 Cdf 的 优点 是 可 以 更 有 > 
位 妆 


thinkbayes 有 一 个 表示 球 积 分 布 范 数 的 Cdf 类 。Pmf 提供 了 一 
种 方法 生成 相应 的 Cdf: 


cdf = suite.MakeCdf () 


cdf 提供 了 一 个 名 为 Percentile 的 函数 


interval = cdf.Percentile(5), cdf.Percentile(95) 


将 Pmf 转 换 为 Cdf 需 要 正比 于 值 数 量 len(pmf ) 的 运算 时 间 。Cdf 将 
值 和 概率 存储 在 有 序列 表 里 (ist) ， 所 以 查 ed 
需要 “对 数 时 间 (log time) ” 即 ， 时 间 和 值 的 数量 的 对 数 成 正比 。 
m0 0 所 以 Cdf 对 于 很 多 计算 来 说 者 
从 O 


本 下 中 的 例子 位 于 jpttp:Mthinkbayes.comytrain3.py。 欲 了 解 更 多 信 
居 参 见 前 言 的 “代码 指南 ”。 


3.7 ”德军 坦克 问题 


第 二 次 世界 大 战 期 间 ， 在 伦 吾 的 美国 大 使 馆 战 争 经 济 部 门 使 用 统 
计 分 析 来 估计 德国 生产 的 坦克 和 其 他 装备 。 


西方 盟 军 获得 了 一 份 记录 敌 ， 记 杂 了 存货 和 修理 记录 ， 其 中 包括 
坦克 的 底盘 和 发 动机 的 序列 号 。 


这 些 记录 的 分 析 表 明 ， 制 造 商 为 坦克 类 型 分 配 了 以 100 为 一 个 区 间 
的 序列 号 ， 每 个 区 间 内 的 号 码 都 是 成 序列 的 ， 但 并 不 是 每 个 区 间 内 的 
数 子 都 用 到 了 。 如 此 一 来 ， 在 每 个 100 的 区 间 内 ， 售 算 德 军 坦克 问题 的 
范围 整 可 以 按照 之 前 的 火车 头 问 题 来 缩小 了 。 


基于 这 种 认识 ， 美 国 和 英国 的 分 析 师 们 完成 了 远 远 小 于 源 目 情报 
ee 。 而 在 战 后 ， 记 录 显 示 这 些 结 来 实质 上 
次 o 


他 们 也 对 轮胎 、 卡 车 、 火 篆 等 设备 进行 类 似 的 分 机， 产生 准确 实 
用 的 经 济 情报 。 


德军 坦克 问题 是 个 历史 上 有 趣 的 问题 ， 也 是 一 个 很 好 的 在 现实 世 
界 应 用 统计 估计 的 例子 。 到 目前 为 止 ， 本 书 的 许多 例子 部 是 游戏 性 质 
的 问题 ， 但 我 们 马上 会 开始 开始 解决 实际 问题 。 我 认为 它 是 贝 叶 斯 分 
析 的 优点 ， 竺 别 是 在 我 们 正在 使 用 的 计算 方法 上 ， 它 提供 了 一 条 从 基 
础 介绍 到 研究 前 沿 的 捷径 。 


3.8 讨论 


贝 叶 斯 当中 ， 有 两 种 途径 选择 先 验 分 布 。 一 些 人 建议 选择 最 能 代 
表 问 题 相关 背景 资料 的 先 验 概 率 ， 在 这 种 情况 下 ， 先 验 被 认为 是 “信息 
”。 问题 是 ， 人 们 可 能 会 使 用 不 同 的 背景 信息 〈 或 者 进行 不 同 的 诠 
释 ) 。 所 以 基于 信息 的 先 验 往往 显得 主观 。 


男 一 种 方法 是 所 谓 的 “无 信息 参考 的 先 验 ”， 其 目的 古 为 了 让 数据 
来 说 话 ， 越 没有 约束 越 好 。 在 某 些 情况 下 ， 你 可 以 选择 包含 一 些 期 户 
属性 的 特殊 先 答 ， 例 如 ， 束 估计 量 设置 一 个 最 小 先 答 。 


“无 信息 先 验 ”观点 存在 是 因为 它们 似乎 更 为 客观 。 但 通 第 ， 我 倾 
品 使 用 先 验 信息 。 为 什么 呢 ? 让 先 ， 贝 叶 斯 分 析 忌 古 基 于 模型 决策 
的 。 选 择 先 验 就 是 决策 之 一 ， 但 它 不 是 唯一 的 部 分 ， 甚 至 可 能 不 是 最 


ee °。 因 此， 即使 无 信息 先 验 较为 客观 ， 整 个 分 析 本 映 仍然 是 主观 


另外 ， 对 于 大 多 数 实 际 中 的 问题 ， 你 很 可 能 是 在 两 个 对立 面 ) 
之 间 : 也 许 有 大 量 的 数据 ， 也 许 没 有 。 如 琳 你 有 大 量 的 数据 ， 先 验 的 
选择 不 是 特别 关键 ;信息 先 验 和 无 信息 先 验 会 得 到 几乎 相同 的 结 琳 。 
我 们 会 在 下 一 章 看 到 类 似 的 例子 。 


不 过 ， 如 条 像 火车 头 问题 ， 如 条 你 没有 太 多 的 参考 数据 ， 那 么 采 
用 相关 的 表 景 信息 (如 需 律 分 布 ) 束 有 很 大 区 别 了 。 


而 比如 德军 坦克 问题 ， 如 果 必 须 基 于 你 的 结论 做 出 生死 存亡 的 决 
策 ， 你 吏 应 该 利用 所 有 的 信息 ， 而 不 是 在 “要 保持 客观 “的 幻觉 中 假装 
不 了 解 具 体 情况 。 


3.9 ”练习 
练习 3-1。 


为 火车 头 问 题写 一 个 似 然 画 数 ， 我 们 必须 要 回答 这 个 问题 “如 来 
铁路 上 有 个 火车 头 ， 我 们 看 到 60 号 的 概率 是 多 少 ? ” 


答案 取决 于 当 我 们 观察 到 火车 头 时 ， 所 采用 的 取样 过 程 。 


在 本 章 中 ， 我 通过 指定 只 有 一 个 列车 运营 公司 (或 只 有 一 个 我 们 
关心 ) 解决 了 这 个 模棱两可 的 问题 。 

但 是 假设 有 很 多 家 使 用 不 同 火 车 头号 码 编 排 的 公司 ， 再 假设 看 到 
任意 公司 经 营 的 任意 火车 的 可 能 性 相同 。 在 这 种 情况 下 ， 似 然 函 数 是 
不 同 的 ， 因 为 你 更 有 可 能 看 到 一 列 由 大 型 公司 运营 的 火车 。 


作为 练习 ， 实 现 淡 车 头 似 然 画 数 的 这 种 变化 ， 并 比较 结 采 。 


@ 拉 格 尔 斯 ， 布 罗 迪 .实证 方法 经 济 情 报 大 战 [J]. 《美国 统计 协会 》 杂 
志 ，1947， 卷 42， 第 237 号 。 


第 4 章 ”估计 进 阶 


4.1 ”欧元 问题 
在 《信息 论 ， 推 理 和 学 习 算 法 》 一 书 中 ， 大 卫 . 麦 凯 提出 了 这 样 一 


个 问题 : 


2000 年 1 月 4 日 ， 星 期 五 ，《 卫 报 》 上 刊载 7 一 个 统计 相关 的 


声明 

当 以 边 绿 转动 比利时 一 欧元 硬币 250 次 后 ， 得 到 的 结 末 是 正面 
140 次 反面 110 次 。“ 这 看 起 来 很 可 疑 "， 伦 至 经 济 学 院 的 统计 讲师 巴 
里 - 布 莱 特 说 , “如 果 硬 币 是 均匀 的 ， 得 到 这 个 结果 的 可 能 性 低 于 
796。” 


那么 ， 这 一 结果 是 否 对 “硬币 侦 心 而 非 均 匀 :提供 了 证 据 呢 ? 
我 们 将 采取 以 下 两 个 步骤 回答 这 个 问题 。 第 一 是 估计 该 硬币 正面 
朝 上 的 概率 。 第 二 是 评估 该 数据 是 否 支 持 了 人 硬币 偏心 的 假设 。 
你 可 以 从 http:Nthinkbayes.com/euro.py 下 载 代 码 。 欲 了 解 更 多 信 
已 ， 请 参见 前 言 的 “代码 指南 ”。 


以 边缘 旋转 任 一 硬币 时 部 有 正面 朝 上 的 概率 x 。 有 理由 相信 x 的 值 
取决 于 便 币 的 一 些 物 理 符 性 ， 主 要 是 重量 的 分 布 。 


如 果 人 硬币 完全 均匀 ， 我 们 预计 x 应 该 接近 50%， 但 对 于 一 个 不 匀称 
a x 应 该 会 大 有 差别 。 我 们 可 以 用 贝 叶 斯 定理 和 观测 到 的 数据 来 
了 |X ° 


我 们 定义 一 个 假设 101， 其 中 瓦 , 是 假设 正面 朝 上 的 概率 x %， 其 值 


从 0 到 100。 首 先 以 均匀 前 置 概率 开始 ， 其 中 本 的 概率 对 所 有 的 x 是 相 
同 的 。 后 面 我 们 再 考虑 其 他 先 验 概率 的 情况 。 


likelihood 函 数 相对 容易 : 如 果 瓦 .为 真 ， 正 面向 上 的 概率 为 x/100 而 反面 
向 上 的 概率 为 1-x/100。 


class Euro(Suite): 


def likelihood (self, data, hypo): 
x =hypo 
if data== 'H': 
return x/100.0 
else: 
return 1 - x/100.0 


下 面 是 实现 suite 和 update 的 代码 : 


suite=Euro (xrange (© ， 101) ) 
dataset = 'H' * 140 + 'T' * 110 


for data in dataset: 
suite.Update (data) 


其 结果 如 图 4-1 所 示 。 
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图 4-1 ”前 验 为 均匀 分 布 的 前 提 下 ， 欧 元 问题 的 后 验 分 布 


4.2 后 验 概 率 的 概述 


总 结 一 仆 ， 有 几 种 方式 来 概括 后 验 分 布 的 特征 。 一 种 选择 是 找到 
后 验 分 布 的 最 大 似 然 值 。 


thinkbayes 提供 了 一 个 函数 实现 ; 


def MaximumLikelihood(pmf) : 
“返回 具有 最 高 概率 的 值 。” 


prob, val = max((prob, val)for val,prob in pmf.Items ()) 
return val 


在 这 种 情况 下 ， 结 果 是 56， 这 也 是 观察 得 到 的 百分比 140/250= 
569%。 因 此 这 正确 地 解释 了 观察 到 的 百分比 束 是 最 大 似 然 值 。 


我 们 也 可 以 计算 平均 数 和 中 位 数 来 概述 后 验 概 率 : 


print 'Mean', suite.Mean() 
print 'Median', thinkbayes.Percentile(suite, 50) 


均值 为 55.95， 中 位 数 为 56。 
最 后 ， 我 们 可 以 计算 出 一 个 置信 区 间 : 


print 'CI', thinkbayes.CredibleInterval(Suite, 90) 


其 结果 是 (51,61) 。 


现在 ， 回 到 原来 的 问题 ， 我 们 想 知道 硬币 是 否 是 均匀 的 。 观 察 到 
的 后 验 可 信 区 间 不 包括 50%， 这 整 表 明了 人 刹 币 的 确 是 不 均匀 的 。 


但 确切 地 说 ， 这 不 是 开始 的 那个 问题 。Mckay 提 出 的 古 “ 这 些 数 据 
征 否 恰恰 为 一 一 醒 币 但 心 而 非 均匀 一 一 给 出 了 证 据 ? 要 回答 这 个 问 
题 ， 我 们 要 更 精确 地 理解 “数据 为 某 一 假说 提供 了 证 据 ” 这 人 句 话 的 含 
义 。 不 过 那 是 下 一 章 的 主题 了 。 


那么 ， 在 继续 探讨 之 前 ， 我 想 先 讲 讲 导 致 困扰 的 原因 。 既然 我 们 
要 知道 硬币 是 否 均匀 ， 很 自然 是 求 得 x 为 50% 的 概率 : 


print suite.Prob (50) 


结果 是 0.021， 该 值 几乎 说 明 不 了 什么 。 这 使 得 对 假设 101 的 评估 显 
得 训 无 意义 。 我 们 可 将 范围 区 间 划 分 成 更 多 或 更 少 的 细小 区 间 ， 如 果 
这 样 ， 对 给 定 假设 的 概率 则 会 更 大 或 更 小 。 


4.3” 先 验 概率 的 双 没 


本 章 开始 ， 我 们 假设 先 验 是 均匀 的 ， 但 这 可 能 不 是 一 个 好 选择 。 
如 果 硬 币 是 偏心 的 ， 可 以 相信 x 会 大 幅 偏 离 50%， 但 如 果 偏 心 到 使 得 x 
是 10%6 或 90% 了 就 太 不 可 能 了 。 


更 合理 的 是 选择 在 50% 附 近 有 较 高 概率 ， 而 在 那些 极端 值 上 ( 指 
10% 或 90%) 概率 较 低 的 一 个 先 验 。 


”作为 一 个 例子 ， 我 构建 了 一 个 三 角形 状 的 先 验 概率 ， 如 图 4-2 所 
太 ° 
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图 4-2 ”欧元 问题 的 均匀 型 和 三 角 型 分 布 先 验 


下 面 的 代码 构成 了 所 壕 三 角 状 的 先 验 : 


def TrianglePrior () : 
suite = Euro() 
for x in range(0 ， 
suite.Set (x, x) 


for x in range(51 ， 
suite.Set (X， 
suite.Normalize () 


图 4-2 显 示 了 结果 (和 均匀 先 验 概率 比较 ) 。 以 相同 的 数据 集 更 新 
先 验 概率 得 到 如 图 4-3 所 示 的 后 验 分 布 。 即 使 实质 上 不 同 的 先 验 ， 后 验 
分 布 也 非常 相似 。 中 位 数 和 和 置信 区 间 是 相同 的 ， 均 值 差 小 于 0.5%。 
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图 4-3 ”欧元 问题 的 后 验 分 布 
这 就 是 先 验 潭 没 的 一 个 例子 : 如 果 有 足够 的 数据 ， 即 使 在 先 验 分 
布 上 持 有 不 同 观 点 ， 人 们 也 会 得 到 趋 于 收敛 的 后 验 概率 。 


4.4 优化 


到 目前 为 止 ， 我 所 展示 的 代码 都 是 为 了 方便 理解 ， 但 效率 不 算 
高 。 通 党， 我 完 开发 实证 无 误 的 代码 ， 然 后 再 检查 对 于 达到 目的 是 否 
够 快 。 如 末 是 ， 代 码 束 没有 进行 优化 的 必要 。 


在 这 个 例子 中 ， 如 果 我 们 关注 运行 时 间 ， 有 几 种 方法 可 以 加 速 代 
但 运行 。 

第 一 个 可 能 方法 是 减少 归 一 化 suite 的 次 数 。 在 原始 代码 中 每 一 次 
模拟 (转动 硬币 ) 都 调用 Update 一 次 。 


dataset = 'H' * heads + 'T' * tails 


for data in dataset: 
suite.Update(data) 


下 面 是 Update 方法 : 


def Update(self, data): 
for hypo in self.Values(): 
like = self.Likelihood(data, hypo) 
self.Mult (hypo, like) 
return self.Normalize() 


0 然后 调用 Normalize ， 再 次 迭代 假 
设 集 。 我 们 可 以 通过 在 Normalize 之 前 先 update 来 节省 一 些 时间 。 


suite 提供 了 一 个 名 为 UpdateSet 的 方法 就 是 这 么 实现 的 ， 如 
下 : 


def UpdatesSet(self, dataset): 
for data in dataset: 
for hypo in self.Values(): 
like = self.Likelihood(data, hypo) 


self.Mult (hypo, like) 
return self.Normalize() 


下 面 是 我 们 局 么 调用 它 


dataset = 'H' * heads + 'T' * tails 
suite.UpdateSet (dataset) 


这 优化 了 速度 ， 但 运行 时 间 仍 是 与 数据 量 成 正比 的 。 我 们 可 以 通 
过 改写 Likelihood 处 理 整 个 数据 集 ， 而 不 是 一 次 模拟 运行 一 次 。 


在 最 初 的 版 本 中 ， 数 据 编 写 为 正面 或 反面 的 字符 串 : 


def Likelihood(self, data, hypo): 


x = hypo / 100.0 
if data == 'H': 
return x 

else: 
return 1-x 


有 一 种 蔡 代 方法 ， 我 们 可 以 将 数据 集 当 作 有 两 个 整数 的 元 组 来 进 
行 编码 : 正面 和 反面 的 数量 。 


在 这 种 情况 下 的 Likelihood 如 下 : 


def Likelihood(self, data, hypo): 
x = hypo / 100.0 
heads, tails = data 


like = x**heads * (1-x)**tails 
return like 


然后 我 们 就 可 以 像 下 面 这 样 调用 Update : 


heads, tails = 140, 110 
suite.Update( (heads, tails)) 


由 于 我 们 用 指数 函数 取代 了 重复 的 乘法 ， 对 任意 次 不 同 数量 的 模 
拟 (转动 硬币 ) ， 这 个 版 本 代码 消耗 的 运行 时 间 是 一 样 的 。 
4.5 Beta 分布 

还 有 一 个 进一步 的 优化 让 解法 更 快 。 

到 目前 为 止 ， 我们 已 经 使 用 了 Pmf 对 象 来 表示 一 组 离散 的 x 值 。 现 


在 ， 我 们 将 使 用 一 个 连续 分 布 ， 确 切 地 说 是 beta 分 布 ( 见 
http://en.wikipedia.org/wiki/Beta_distribution ) 。 


beta 分 布 定义 在 从 0 到 1 (包括 两 者 ) 的 区 间 上 ， 所 以 它 是 一 个 描述 
比例 和 概率 的 自然 选择 。 稍 等 ， 还 要 更 好 。 


如 琳 你 像 上 市 一 样 ， 用 一 个 二 项 式 似 然 钞 数 来 实现 贝 叶 斯 更 新 ， 
加 上 beta 分 布 是 一 个 共 轿 先 验 。 那 就 意味 着 如 果 x 的 先 验 概率 的 分 布 是 
一 个 beta 分 布 ， 那 其 后 验 概 率 也 是 一 个 beta 分 布 。 别 急 ， 比 这 还 要 好 。 


beta 分 布 的 形状 取决 于 两 个 参数 ， 写 为 a 和 PB ， 或 alpha 和 beta 
。 如 果 先 验 概率 是 带 有 参数 alpha 和 beta 的 beta 分 布 ， 我们 看 到 h 次 
正面 和 t 次 反面 的 数据 ， 后 验 概率 就 是 参数 为 alpha+h 和 beta+t 的 
beta 分 布 。 换 人 句 话 说 ， 通 过 两 个 加 法 实现 了 了 Update 方法 。 


所 以 这 很 了 不 起 ， 只 不 过 仅 适 用 于 先 验 概率 的 分 布 的 确 是 一 个 beta 
分 布 的 情形 。 骏 运 的 是 ， 在 最 低 限 度 上 ， 对 许多 实际 的 先 验 分 布 beta 分 
布 都 可 以 进行 良好 的 近似 ， 同 时 也 可 以 完美 匹配 均匀 前 验 。 参 数 
alpha=1 和 beta=1 的 beta 分 布 就 是 从 0 到 1 的 均匀 分 布 。 


让 我 们 看 看 如 何 利 用 这 一 切 优势 。thinkbayes .py 提供 了 一 个 
类 来 表示 beta 分 布 : 


class Beta(object ) : 


def _ init (self, alpha=1, beta=1): 


self.alpha = alpha 
self.beta = beta 


默认 情况 下 的 __init__ 使 用 均匀 分 布 。Update 进行 贝 叶 斯 更 


def Update(self, data): 
heads, tails = data 


self.alpha += heads 
self.beta += tails 


data 是 一 对 代表 正面 和 反面 数量 的 整数 。 
因此 ， 我 们 有 另 一 种 方法 来 解决 欧元 问题 ， 


beta = thinkbayes.Betal() 
beta.Update( (140, 110)) 
print beta.Mean() 


beta 提供 了 Mean ， 计 算 alpha 和 beta 的 一 个 简单 函数 : 


def Mean(self): 
return float(self.alpha) / (self.alpha + self.beta) 


于 欧元 问题 后 验 的 平均 值 为 56%， 这 和 我 们 使 用 Pmf 得 到 的 结果 
年 相同 。 


beta 还 提供 了 EvalPdf ， 它 计算 beta 分 布 的 概率 密度 函数 
(PDF) : 


def Evalpdf(self, x): 
return x**(self.alpha-1) * (1-x)**(self.beta-1) 


最 后 ，beta 提供 MakePmf 方法 ， 它 使 用 EvalPdf 生成 beta 分 布 
的 离散 近似 值 。 


4.6 ”讨论 


在 本 章 中 ， 我 们 用 两 个 不 同 的 先 验 处 理 同 一 个 问题 ， 发 现在 较 大 
数据 集 的 条 件 下 ， 先 验 之 间 的 区 别 被 掩盖 了 。 如 来 两 个 人 开始 之 前 对 
于 先 验 有 不 同 信 仰 ， 他 们 通常 会 发 现 ， 随 着 得 到 更 多 的 数据 ， 后 验 分 
布 收敛 了 。 在 一 些 点 上 ， 分 布 之 则 的 莽 异 足够 小 到 没有 实际 影响 。 


当 这 种 情况 出 现时 ， 会 减轻 一 些 我 在 前 一 章 关 于 客观 性 的 担忧 。 
于 许多 现实 世界 的 问题 ， 明 显 不 同 的 先 验 信念 最 终 痢 会 个 数 据 
se 


但 事实 并 非 总 是 如 此 。 首 先 ， 请 记 住 ， 所 有 的 贝 叶 斯 分 析 是 基于 
模型 决策 的 。 如 采 你 和 我 没有 选择 相同 的 模型 ， 我 们 可 能 对 数据 进行 
不 同 的 解读 (诠释 ) 。 因 此 ， 即 使 使 用 相同 的 数据 ， 我 们 也 会 计算 得 
到 不 同 的 似 然 度 ， 因 而 后 验 概 率 避 ® 可 能 不 收敛 。 


另外 ， 请 注意 ， 在 贝 叶 斯 Update 中 ， 我 们 以 一 个 似 然 度 乘 以 每 个 
先 验 概 率 ， 所 以 如 果 p( 百 ) 为 0，p(EID) 也 为 0， 而 不 论 D 是 什么 。 在 欧 
元 问题 上 ， 如 果 你 确信 x 小 于 50%， 而 且 指 定 其 他 所 有 假设 的 概率 为 
0， 那 么 再 多 的 的 数据 都 将 无 法 说 服 你 。 


这 种 看 法 是 克 伦 威 尔 法 则 的 基础 ， 建 议 是 : 应 当 避 免 设置 任何 一 
个 假设 的 先 验 概率 为 0， 哪 怕 的 确 存在 这 种 可 能 性 〈 见 


http://en.wikipedia.org/wiki/Cromwell’s_rule ) 
克 伦 威 尔 法 则 以 奥利弗 : 克 伦 威 尔 命名 ， 他 写 下 了 “我 求 求 你 ， 看 在 


基督 的 份 上 ， 认 为 这 可 能 是 你 是 误会 了 ”。 对 于 贝 叶 斯 方法 ， 这 也 是 个 
好 建议 (即使 有 点 过 度 重 视 了 ) 。 


4.7 练习 
练习 4-1。 


假设 不 是 直接 观察 掷 便 币 ， 而 是 使 用 一 个 不 总 是 正确 的 工具 来 测 
量 结果 。 上 有 具体 地 说 ， 假 设 有 一 个 概率 y 将 实际 正面 报告 为 反面 ， 或 报告 
实际 反面 为 正面 。 


编写 一 个 类 来 合计 这 样 一 系列 给 定 了 结果 的 硬币 的 偶 置 量 和 值 y ， 
后 验 分 布 的 范围 是 怎样 依赖 于 y 的 ? 


练习 4-2。 


这 项 练习 受到 Reddit 上 一 个 帖子 的 局 发 ， 一 位 名 叫 dominosci 
的 “redditor” 在 Reddit 的 统计 小 组 上 提出 了 这 个 问题 。 
http:/reddit.com/r/statistics ° 


Reddit 是 一 个 在 线 论 坛 ， 有 许多 被 称 为 的 subreddits 的 兴趣 小 组 。 用 
户 补 称 为 redditors，redditor 会 贴 上 网 上 内 容 和 其 他 网 页 的 链 授 。 其 他 
redditors 对 此 链接 进行 表决 ， 对 高 质量 的 链接 给 予 “upvote”， 不 好 或 者 
是 不 相关 的 链接 则 给 予 “downvote”。 


Dominosci 提 出 了 这 样 一 个 问题 ， 束 是 redditor 当 中 一 些 人 比 男 一 些 
人 更 可 信 ， 但 是 Reddit 并 没有 考虑 到 这 个 因素 。 


我 们 的 挑战 是 设计 一 个 系统 ， 当 redditor 做 了 投票 ， 可 以 根据 
redditor 的 可 信 度 估计 并 且 更 新 链接 的 质量 ， 而 对 该 redditor 的 可 信 度 佑 
计 也 会 依据 这 一 链接 的 质量 被 更 新 。 


一 种 方法 是 将 链接 的 质量 以 恬 得 upvote 的 概率 建 模 ，redditor 的 可 
信 度 以 对 高 品质 条 目 给 出 正确 upvote 的 概率 建 模 。 


编写 一 个 类 来 定义 redditors 和 链接 ， 只 要 redditor 投 了 票 ，update 画 
数 对 这 两 个 对 象 进行 更 新 。 


第 5 章 ”胜率 和 加 数 


5.1 胜率 


表示 概率 的 方法 之 一 是 用 0 和 1 之 间 的 数字 ， 不 过 这 并 非 唯一 的 方 
法 。 如 果 你 玩 过 足球 博彩 或 赛马 ， 可 能 遇 到 概率 的 另 一 种 表示 ， 称 为 
胜率 (odds) 2 。 


你 应 该 听 说 过 例如 “胜率 是 三 比 一 "这样 的 表述 ， 但 也 许 不 知道 合 
义 。 胜 率 是 一 个 事件 可 能 发 生 的 概率 与 不 发 生 的 概率 的 比值 。 


所 以 ， 如 采 认 为 我 的 球 队 有 75 罗 的 机 会 获胜 ， 我 会 说 他 们 的 胜率 
是 三 比 一 ， 因 为 获胜 的 机 会 三 倍 于 失败 的 机 会 。 


你 可 以 将 胜率 写成 十 进 制 形式 ,但 最 常见 的 是 将 其 写成 整数 比 。 
因此 “三 比 一 ”被 写成 3:1。 

当 概 率 较 低 ， 通 常 称 为 赔 率 (odds against) ” ， 而 不 是 胜率 (odds 
in favor) 。 例 如 ， 如 果 觉 得 我 的 马 只 有 10% 获 胜 的 机 会 ， 我 会 说 赔 率 


是 9:1。 


概率 和 胜率 是 相同 信息 的 不 同 表示 形式 。 给 定 一 个 概率 ， 你 可 以 
这 样 计算 胜率 : 


def Odds(p): 
return p / (1-p) 


给 定 ( 文 持 ) 胜率 的 十 进 制 形式 ， 可 以 这 样 将 其 转换 为 概率 : 


def Probability(o): 
return o / (o+1) 


如 采 你 以 分 子 和 分 母 表示 胜率 ， 可 以 像 下 面 这 样 进行 概率 转换 : 


def Probability2(yes, no): 
return yes / (yes + no) 


当 融 着 胜率 思维 工作 上 时， 我 发 现 它 有 助 于 确定 人 们 的 观点 。 如 果 
20% 的 人 认为 我 的 马 赢 ， 那 么 其 余 80% 的 人 当然 就 相反 ， 因 而 赞成 赔 
率 是 20:80 或 1:4。 

如 果 我 的 马 赢 的 反 疝 赔 率 是 5:1， 那 么 就 是 六 分 之 五 的 人 认为 它 会 
失败 ， 所 以 获胜 的 概率 是 1/6。 

5.2” 贝 叶 斯 定理 的 胜率 形式 


在 第 1 章 我 写 出 了 贝 叶 斯 定理 的 概率 形式 : 


plH)PIDIH) 
plD) 


如 果 我 们 有 A 和 B 两 个 假设 ， 我 们 可 以 写 出 后 验 概率 的 比值 如 下 : 
pl\AID) plA)pP(DIA) 
p(BID) p(B)p(D|B) 

请 注意 等 式 中 出 现 的 标准 化 常数 p (D )。 


如 果 A 和 B 是 互 斥 且 穷 尽 的 ， 就 意味 着 p(B ) = 1-p (A )， 因 此 我 们 可 
比率 、 后 验 的 比率 重 写 为 胜率 。 将 文 持 A 的 可 能 性 写 为 o(A 
)， 得 到 : 


plHID)= 


plD|A) 
plD|B) 


在 字面 形式 上 ， 这 说 明了 后 验 赔 率 是 和 完 验 胜率 乘 以 似 然 比 。 而 这 
正 是 贝 叶 斯 定理 的 胜率 形式 。 


这 种 形式 相当 适合 在 纸 上 或 者 脑海 中 进行 贝 叶 斯 计算 。 
例如 ， 我 们 回 到 曲 奇 饼 问 题 : 


ol AD)=olA) 


假设 有 两 硫 曲 奇 饼 。 硫 1 包含 30 个 香草 曲 奇 饼 和 10 个 巧克力 曲 
奇 匆 。 碗 2 包含 两 种 曲 奇 饼 各 20 个 。 
现在 假设 你 随意 选择 了 一 个 矿 ， 然 后 随意 选择 一 个 曲 奇 饼 。 
如 果 是 香草 曲 奇 饼 ， 它 来 自 硫 1 的 概率 是 多 少 ? 
先 验 概率 是 50%， 所 以 胜率 是 1:1， 或 就 是 1。 似 然 度 是 3/3 
3/2。 所 以 后 验 概率 就 是 3:2， 对 应 于 概率 3/5。 


5.3 ”奥利弗 的 血迹 


下 面 症 来 自 麦 纪 的 《信息 理论 、 推 理 和 学 习 》 的 男 一 个 问题 。 


; 臣 


在 一 个 犯罪 现场 ， 有 两 人 遗留 了 血迹 。 一 名 疑犯 奥利弗 经 过 
测试 发 现 是 “0” 型 血 。 而 发 现 的 痕迹 中 血型 分 别 是 “0” 型 (一 种 本 
地 人 口 的 常见 血型 ， 有 60% 的 概率 ) 和 “AB” 型 (一 种 罕见 的 血 
型 概率 1%6) 。 

那么 这 些 数据 [现场 发 现 的 痕迹 ] 是 否 支持 奥利弗 是 疑犯 之 一 
[在 现场 遗留 下 血液 证 据 的 人 ]? 

要 回答 这 个 问题 ， 我 们 需要 想 想 “数据 支持 了 假设 * 这 到 底 意 味 着 
什么 。 直 觉 上 ， 相 比 之 前 如 果 某 一 假设 随 着 数据 的 出 现 而 呈现 更 大 可 
能 性 ， 我 们 就 说 “数据 支持 了 假设 ”。 

在 曲 奇 饼 问 题 上 ， 先 验 胜率 是 1:1， 或 者 概率 50%。 后 验 胜 率 是 
3:2， 或 者 概率 60%。 因此， 我 们 可 以 说 ， 香 草 曲 奇 饼 这 一 数据 作为 证 
据 支持 其 来 自 碗 1 的 假设 。 

贝 叶 斯 定理 的 胜率 形式 提供 了 一 种 方法 ， 使 这 种 直觉 更 准确 。 


回顾 一 下 公式 
1 ) 

ol 村 | 也) = olA) Bt 2 

pl(D|B) 


或 除 以 o(A ): 


olAID) 加 pl(D|A) 
o(A) pp(D|B) 


等 式 左边 是 后 验 胜 率 和 前 验 胜率 的 比值 。 右 边 是 似 然 比 ， 也 称 关 
贝 叶 斯 因子 。 


如 果 贝 叶 斯 因子 的 值 大 于 1， 则 意味 着 数据 更 可 能 文 持 假 设 A 而 不 
征 假设 B ， 也 意味 着 胜算 更 大 ， 鉴 于 胜率 比 也 大 于 1， 意 味 着 随 着 数据 
的 出 现 胜 率 也 增加 了 。 


如 有 果 贝 叶 斯 因子 小 于 1， 就 意味 着 数据 支持 B 的 可 能 大 于 文 持 可 能 
A ， 所 以 支持 A 的 胜率 降低 了 。 


最 后 ， 如 果 贝 叶 斯 因子 恰好 为 1 时 ， 数 据 或 者 假说 有 同等 可 能 ， 所 
以 胜率 不 会 改变 。 


现在 我 们 可 以 回 到 奥利弗 血迹 问题 了 。 如 采 奥 利 弗 生 在 犯 徘 现场 
留 下 血迹 的 人 之 一 ， 束 解释 了 那个 “0” 型 血 证 据 样 本 的 由 来 ， 因 此 数据 
的 概率 就 是 在 人 群 中 随意 挑 中 一 个 “AB” 血 型 人 的 概率 1%。 2 


如 果 奥 利 弗 没有 在 现场 留 下 血液 ， 我 们 就 要 对 这 两 个 样本 进行 解 
释 。 假 设 在 人 群 中 任 选 两 人 ， 有 多 大 可 能 性 正好 找到 一 个 “0” 血型 人 和 
一 个 “AB” 血 型 人 ? 咽 ， 两 种 可 能 情况 .第 一 个 人 是 “0” 型 第 二 个 
SS 或 者 反 过 来 组 合 一 下 。 所 以 总 的 概率 是 2 (0.6)(0.01) = 
1.2% 。 


如 采 不 是 奥利弗 的 血液 ， 数 据 的 似 然 度 还 要 稍 高 上 毕 ， 所 以 血液 证 
据 这 个 数据 实际 上 没有 文 持 奥利弗 的 犯罪 嫌疑 。 


这 个 例子 有 刻意 设计 的 成 分 ， 但 它 是 一 个 违反 我 们 自觉 的 、 符 合 
假设 的 数据 却 并 非 必然 支持 假设 的 例子 。 


如 果 这 一 结 采 如 此 有 悖 第 理 甚至 困扰 到 你 ， 下 面 的 思路 可 能 有 些 
帮助 :该 数据 由 一 个 常见 事件 一 一 “0” 型 血 ， 和 一 个 罕见 事件 
“AB” 型 血 构成 。 如 果 奥 利 弗 与 第 规 事 件 相 关 〈O 型 血 ) ， 这 使 得 
罕见 的 事件 还 十 无 法 解释 。 如 琳 奥 利 弗 与 常规 事件 无 天 ， 那 么 我 们 有 
两 种 可 能 找到 “AB” 型 血 的 疑犯 。 两 种 情况 中 的 这 一 因素 导致 了 夸 别 。 


5.4 ”加 数 
贝 叶 斯 统计 的 基本 操作 是 Update， 这 需要 先 验 概率 和 一 组 数据 ， 
并 产生 一 个 后 验 分 布 。 但 是 ， 解 决 实际 问题 通常 涉及 许多 其 他 操作 ， 
包括 缩放 、 加 法 和 其 他 算术 运算 、 最 大 值 和 最 小 值 ， 还 有 混合 计算 。 
本 章 介 绍 加 法 和 最 大 值 ， 在 需要 的 时 候 我 会 介绍 其 他 的 运算 。 


第 一 个 例子 基于 《 龙 与 地 下 城 》 这 个 角色 扮演 游戏 ， 在 这 个 游戏 
里 ,玩家 决策 的 结果 是 通过 找 角 子 来 完成 的 。 


事实 上 ， 游 戏 开 始 前 ， 通 过 转动 3 个 6 面 角 子 并 把 结 琳 相 加 得 到 一 
个 总 和 ， 玩 家 创造 了 自己 角色 的 各 个 属性 ) 力量、 智力、 英明、 有 灵 
巧 、 体 质 和 魅力 。 

所 以 ， 你 应 该 会 对 总 和 的 分 布 感 兴趣 。 有 两 种 方法 可 以 计算 。 

模拟 : 


给 定 一 个 表示 角 子 面 分 布 的 Pmf， 可 以 绘制 随机 样品 ， 把 它们 加 起 
来 ， 累 加 每 次 模拟 求 和 的 分 布 。 


枚 举 : 
给 定 两 个 Pmfs， 可 以 枚 举 所 有 可 能 的 数值 对 ， 并 计算 和 的 分 布 。 


thinkbayes 提供 这 两 个 芳 数 。 下 面 是 第 一 个 方法 的 实现 。 肯 
先 ， 我 定义 一 个 类 来 表示 单个 角子 : 


s Die(thinkbayes.Pmf ): 


def _ init (self, sides): 
thinkbayes.Pmf. init (self) 


for x in xrange(1, sides+1): 
self.Set(x, 1) 
self.Normalize() 


现在 ， 可 以 创建 一 个 6 面 肯 子 : 


然后 使 用 thinkbayes .SampleSum 产生 1000 次 转动 3 个 山子 的 样 


dice = [d6] * 3 
three = thinkbayes.SampleSum(dice, 1000) 


SampleSum 以 分 布 的 列表 (Pmf 或 Cdf 对 和 象 ) 和 样本 大 小 n 为 参 
数 。 它 产生 n 次 随机 样本 的 和 ( 单 次 模拟 的 汇总 ) ， 
并 将 其 分 布 作为 一 个 Pmf 对 象 返 回 


def SampleSum(dists, n): 
pmf = MakePmfFromList(RandomSum(dists) for i in xrange(n)) 


return pmf 


SampleSum 使 用 RandomSum ， 也 在 thinkbayes .py 中 : 


def RandomSum(dists): 
total = sum(dist.Random() for dist in dists) 


return total 


RandomSunm 在 每 个 分 布 中 调用 Random 然后 汇总 其 结果 。 


模拟 的 缺点 是 得 到 的 结果 只 是 近似 正确 的 ， 随 看 n 变 大 ， 结 来 会 更 
准确 ， 但 是 运行 时 间 也 增加 了 。 


另 一 种 方法 是 枚 举 所 有 成 对 的 值 ， 并 计算 每 对 的 概率 和 总 和 “。 这 
在 Pmf. add 上 实现 : 


# class Pmf 


def _add_(self, other): 
pmf = Pmf() 
for vi, pi in self.Items(): 
for v2, p2 in other.Items(): 
pmf.Incr(vi+v2, pi*p2) 


return pmf 


self 是 一 个 Pmf 对 象 ，other 可 以 是 Pmf 或 其 他 任何 提供 条 目的 
对 象 。 其 结果 是 一 个 新 的 Pmf 对 象 。 运 行 _add__ 的 时 间 取 决 于 self 
和 other 对 象 中 的 条 目的 数量 ， 它 正比 于 len(self)*len(other) 


下 面 是 如 何 使 用 它 : 


three exact = d6 + d6 + d6 


当 在 Pmf 中 应 用 + 操作 符 时 ，Python 调 用 _add ”。 在 这 个 例子 
中 ，__add _ 被 调用 了 两 次 。 


图 5-1 显 示 了 通过 模拟 生成 的 近似 结果 和 枚 举 计算 产生 的 确切 结 
果 。 


14 16 18 


8 10 12 
3 个 6 面 骸 子 值 的 总 和 值 
图 5-1 ”转动 3 个 6 面 般 子 总 和 值 的 近似 和 确切 分 布 


Pmf. add__ 是 基于 这 样 的 假设 ， 来 目 每 个 Pmf 的 随机 选择 是 独 
立 的 。 在 投掷 多 个 人 般 子 的 例子 中 ， 这 个 假设 相当 不 销 。 其 他 情况 下 我 
们 则 必须 扩展 这 个 方法 以 使 用 条 件 概 率 。 


从 本 蔬 中 的 代码 可 以 从 http:Nthinkbayes.com/dungeons.py 获得 。 更 
多 信息 请 参见 前 言 的 “代码 指南 ”。 


5.5 “最 大 化 


当 你 生成 一 个 《 龙 与 地 下 城 》 的 角色 ， 会 对 人 物 的 最 佳 属 性 特别 
有 兴趣 ， 所 以 你 可 能 想 知 道 属 性 值 分 布 的 最 大 值 。 


有 三 种 方法 来 计算 一 个 最 大 值 的 分 布 。 


模拟 : 


给 定 一 个 Pmf， 代 表单 一 选择 的 分 布 ， 可 以 生成 随机 样本 ， 找 到 最 
大 值 和 模拟 最 大 值 的 素 积 分 布 。 


枚 举 : 


给 定 两 个 pmf， 可 以 枚 举 所 有 可 能 的 数值 对 ， 并 计算 分 布 的 最 大 


指数 计算 ， 


如 有 我 们 将 一 个 Pmf 较 换 为 Cdf， 有 一 个 简单 而 有 效 的 算法 查找 最 
大 的 Cdf (看 后 面 ) 。 


模拟 最 大 值 的 代码 与 模拟 求 和 的 代码 几乎 相同 : 


def RandomMax(dists): 
total = max(dist.Random() for dist in dists) 


return total 

def SampleMax(dists, n): 
pmf = MakePmfFromList(RandomMax(dists) for i in xrange(n)) 
return pmf 


同 


我 所 做 的 只 是 用 “max” 替 换 “sum”。 而 对 于 枚 举 部 分 代码 几乎 是 相 


def PmfMax(pmf1, pmf2): 
res = thinkbayes.Pmf() 
for vi, pi in pmf1.Items(): 
for v2, p2 in pmf2.Items(): 


res.Incr(max(vi, v2), pi*p2) 
return res 


事实 上 ， 你 可 以 将 操作 符 作为 参数 来 一 般 化 这 个 函数 。 


这 一 算法 的 唯一 问题 是 ， 如 果 每 个 Pmf 具 有 m 个 值 ， 运 行 时 间 正 比 
于 m“。 如 有 果 我 们 想 知道 K 个 选择 的 最 大 值 ， 需 要 的 时 间 正 比 于 km”。 


如 采 我 们 转换 pmfs 到 Cdfs， 我 们 可 以 以 更 快 的 速度 进行 同样 的 计 
算 ! 关键 站 要 记 住 素 积分 布 范 效 的 定义 : 


CDFIzri=PX 7) 


其 中 X 是 一 个 随机 变量 ， 它 的 意思 是 “从 分 布 中 随机 选取 的 一 个 
ee 所 以 举例 来 说 ，CDF (5) 表 示 该 分 布 中 某 个 值 是 小 于 或 等 于 5 的 概 


如 果 我 从 CDF |; 中 取出 XxX， 从 CDF , 中 取出 了 ， 计 算 最 大 Z =max (X 
，Y)， 则 2 小 于 或 等 于 5 的 可 能 性 是 多 少 ? 当然 ， 在 这 个 案例 里 面 ，X 
和 Y 必须 小 于 或 等 于 5 。 


如 果 选 择 X 和 Y 是 独立 行为 ， 
CDF3(5) = CDF(5)CDF,(5) 
其 中 CDF 3 是 Z 的 分 布 。 我 选择 了 5 这 个 值 让 公式 容易 阅读 ， 但 我 
们 可 以 一 般 化 为 z 是 任意 值 的 情况 : 
CDF3(z) = CDF(z)CDF,(z) 
有 一 个 特例 是 我 们 从 同一 个 分 布 中 选择 K 值 ， 
CDF(z) = CDF(z) 


因此 ， 为 了 求 k 的 最 大 值 的 分 布 ， 我 们 可 以 枚 举 给 定 Cdf 的 概率 再 
将 其 变化 为 K 次 顺 。Cdf 提供 了 一 种 方法 ， 该 方法 如 下 : 


# class Cdf 


def Max(self, k): 
cdf = self.Copy() 


cdf.ps = [p**k for p in cdf.ps] 
return cdf 


Max 方法 接受 选取 的 次 数 k ， 然 后 返回 一 个 新 的 表示 进行 k 次 选择 
最 大 值 的 Cdf。 此 方法 的 运行 时 间 正 比 于 Cdf 中 的 条 目 个 数 m 。 


Pmf .Max 和 Pmfs 实 现 同样 的 功能 。 只 是 将 Pmf 转 换 到 Cdf 必 须要 多 
做 一 点 工作 ， 所 以 运行 时 间 成 正比 于 mlogm ， 但 是 这 仍然 要 好 过 于 呈 


平方 复杂 度 的 运行 时 间 。 
最 后 ， 这 里 有 一 个 计算 角色 的 最 佳 属性 的 分 布 的 苑 例 : 


best_attr_cdf three_exact.Max (6) 


best_attr_pmf best_attr_cdf.MakePmf () 


其 中 three_exact 是 上 一 地 定义 过 的 。 如 果 我 们 打印 出 结果 ， 将 
看 到 产生 一 个 有 18 属 性 值 的 角色 的 概率 大 约 是 3%。 


图 5-2 显 示 了 分 布 。 
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图 5-2 ”转动 3 个 6 面 骨 子 的 最 大 值 分 布 


5.6 ”混合 分 布 


让 我 们 考虑 一 个 来 自 《 龙 与 地 下 城 》 的 例子 。 假 设 我 有 一 金 散 
子 ， 清 单 如 下 : 


从 盒子 中 选择 一 个 般 了 于 转动 ， 会 三 现 什么 分 布 呢 ? 


如 有 条 你 知道 选 到 的 是 哪个 贷 和子， 答案 很 简单 。n 面 的 般 子 产生 一 个 
均匀 的 从 1 到 n 的 分 布 ， 包 括 1 和 n 。 


但 是 ， 如 采 我 们 不 知道 选 到 的 究竟 是 哪个 仍 子 ， 由 此 产生 的 分 布 
则 是 有 不 同上 办 的 均匀 分 布 的 混合 分 布 。 


在 一 般 情况 下 ， 这 类 混合 量 不 适合 任何 简单 的 数学 模型 ， 但 它 可 
以 从 对 PMEF 的 直接 计算 得 到 。 

与 往常 一 样 ， 一 个 选择 是 模拟 ， 生 成 一 个 随机 样本 计算 模拟 样本 
的 PMF。 这 种 方法 很 简单 ， 它 会 快速 得 到 一 个 近似 的 结果 。 但 是 ， 如 
果 想 要 确切 的 解法 ， 我 们 需要 一 种 不 同 的 方法 。 


让 我 们 从 只 有 两 个 角子 的 位 单 版 本 开始 ， 一 个 6 面 肯 和 一 个 8 面 
山 。 我 们 可 以 用 Pmf 来 表示 每 个 般 子 : 


d6 =Die(6) 
d8 =Die (8) 


然后 我 们 创建 一 个 Pmf 表 示 这 一 混合 分 布 : 


mix = thinkbayes ， Pmf( ) 
for die in [d6, d8]: 
for outcome, prob in die.Items(): 
mix. Incr (outcome, prob) 


mix.Normalize() 


第 一 个 循环 枚 举 恤 子 ， 第 二 个 循环 枚 举 循 环 仍 子 结果 和 概率 。 在 
循环 内 部 ，Pmf .Incr 汇总 了 两 个 分 布 的 贡献 。 


此 代码 假定 选中 两 个 货 子 是 同等 可 能 的 。 更 一 般 地 ， 我 们 需要 知 
道 选中 每 一 个 人 般 子 的 概率 ， 以 便 可 以 对 结果 进行 对 应 的 加 权 。 


首 移 ， 我 们 创建 一 个 映射 了 骨 子 和 盘子 被 选中 概率 的 Pmf 对 象 : 


pmf_dice = thinkbayes.Pmf() 
pmf_dice.Set(Die(4), 2) 
pmf_dice.Set(Die(6), 3) 
pmf_dice.Set(Die(8), 2) 


pmf_dice.Set(Die(12), 1) 
pmf_dice.Set(Die(20), 1) 
pmf_dice.Normalize() 


接 下 来 ， 我 们 需要 计算 混合 分 布 算法 的 一 个 更 通用 的 版 本 : 


mix = thinkbayes.Pmf() 
for die, weight in pmf_dice,Items(): 
for outcome, prob in die.Items(): 


mix.Incr(outcome, weight*prob) 


现在 每 个 角 子 都 有 相关 联 的 权重 了 〈 意 味 着 山子 有 了 权 值 ) 。 


当 将 每 个 结果 添加 到 混合 分 布 中 ， 其 概率 乘 以 权重 ， 得 到 了 图 5-3 
所 示 的 结果 。 正 如 预期 的 那样 ，1 至 4 是 最 有 可 能 的 ， 因 为 每 一 个 山 子 
都 可 以 生成 这 些 值 。12 以 上 的 值 可 能 性 不 大 ， 因 为 只 有 一 个 20 面 通 子 
nn 


概率 值 


0 ls 10 13 20 25 
所 得 结果 


图 5-3 ”从 盒子 中 随机 选中 骨 子 的 结 采 分 布 


thinkbayes 提供 了 一 个 名 为 MakeMixture 的 画 数 ， 它 封装 了 
该 算法 的 功能 ， 所 以 我 们 把 计算 过 程 写成 : 


mix = thinkbayes.MakeMixture (pmf_dice) 


我 们 将 在 第 7 昔 和 第 8 章 再 次 使 用 MakeMixture 。 


5.7 讨论 


除了 贝 叶 斯 定理 的 赔 率 形 式 ， 这 一 章 不 是 专门 关于 贝 叶 斯 的 。 但 
贝 叶 斯 分 析 的 一 切 都 和 分 布 有 关 ， 所 以 了 解 分 布 的 概念 很 重要 。 以 计 
算 的 观点 来 看 ， 分 布 就 是 可 以 表示 任意 一 组 值 (一 个 随机 过 程 的 可 能 
结 采 ) 和 其 概率 的 数据 结构 。 


我 们 已 经 看 到 了 分 布 的 两 种 表示 形式 : Pmfs 和 Cdfs。 在 包含 了 相 
同 信息 这 一 点 上 ， 它 们 是 等 价 的 ， 这 样 你 就 可 以 从 一 个 转换 到 男 一 
个 。 它 们 之 间 的 主要 区 别 在 于 性 能 、， 有 些 运算 采用 Pmf 更 快 、 更 容易 ， 
另 一 些 则 是 采用 Cdf 更 快 。 


本 章 的 另 一 个 目标 是 引入 一 些 概率 分 布 运算 操作 ， 像 
Pmf, add  ， Cdf.Max 和 thinkbayes,.MakeMixture 。 后 续 我 
们 将 使 用 这 些 运 算 ， 但 这 里 ， 我 介绍 的 目的 是 鼓励 大 家 将 分 布 作为 概 
率 计算 的 基石 进行 深入 思考 ， 而 不 仅仅 是 将 其 当 作 一 个 值 和 概率 的 容 
五 O 


@ 译注 : odds 经 常 被 直观 但 不 严谨 地 称 为 赔 率 (这 与 博彩 业 有 关 ， 博 
彩 业 就 某 一 事件 的 赔 率 严 格 说 是 大 于 1 的 ， 人 否则 不 赚钱 ) ， 事 实 上 odds 


是 机 会 的 意思 。 


@ 译注 ， 记 住 数 据 包括 两 个 因素 ，O 型 血 和 AB 型 血 的 现场 证 据 。 


第 6 章 ”决策 分 析 
6.1 “正确 的 价格 > 问题 


2007 年 11 月 1 日 ， 选 手 莱 希 娅 和 纳 撤 尼 尔 参 加 《正确 的 价格 》 这 个 
美国 电视 游戏 节目 。 他 们 在 名 为 showcase 的 游戏 环节 中 比赛 ， 游 戏 主题 
是 和 猜 展示 奖品 的 价格 。 猜 测 到 最 接近 展示 品 实际 价格 的 选手 将 赢得 奖 
HO “ 


纳 撒 尼 尔 先 开始 。 他 的 展品 里 面包 括 洗 硫 机 、 酒 柜 、 笔 记 本 计算 
机 和 一 辆 汽车 。 他 出 价 26000 美 元 。 


羔 希 娜 的 展品 包括 弹 球 机 、 视 频 游戏 、 人 台球 桌 和 一 次 去 巴哈马 的 
旅行 。 她 出 价 21500 美 元 。 


> 纳 撤 尼 和 尔 展 品 的 实际 价格 为 25347 美 元 。 由 于 出 价 太 高 他 输 掉 了 比 


莱 希 媚 的 展品 的 实际 价格 为 21578 美 元 。 比 起 实际 价格 她 只 少 猜 了 
78 美 元 所 以 赢得 了 比赛 。 而 且 因 为 她 的 出 价差 少 于 250 美 元 ， 她 还 万 得 
了 纳 撤 尼 尔 的 展品 。 

对 一 个 具备 贝 叶 斯 轧 维 的 人 ， 这 一 场景 暗示 出 的 儿 个 问题 是 : 


Pe 在 看 到 奖品 前 ， 选 手 对 展示 品 的 价格 应 该 有 什么 样 的 先 验 分 布 
yo 


2. 看 到 奖品 后 ， 选 手 应 该 如 何 修正 这 些 预期 ? 
3. 基于 后 验 分 布 ， 选 手 应 该 怎么 出 价 ? 
第 三 个 问题 ， 论 证 了 贝 叶 斯 分 析 的 一 个 常见 用 途 : 决策 分 析 。 给 


定 一 个 后 验 分 布 ， 我 们 可 以 选择 出 价 多 少 ， 从 而 最 大 限度 地 提高 选手 
的 预期 收益 。 


这 个 问题 来 日 卡 梅 伦 :戴维森 - 皮 隆 的 《Bayesian Methods 
forhackers》 一 书 。 我 为 本 章 书 写 的 代码 可 从 
http:/thinkbayes.com/price.py 得 到 ; 输入 的 数据 可 以 从 
http:/thinkbayes.com/showcases.2011.csv 和 
http:/thinkbayes.com/showcases.2012.csv 下 载 。 更 多 信息 请 参考 前 言 
的 “代码 指南 ”。 


6.2” 先 验 概率 


为 了 选择 价格 的 先 验 分 布 ， 我 们 可 以 利用 先前 的 数据 。 斑 运 的 
是 ， 这 个 节目 的 粉丝 详细 记录 了 这 些 数 据 。 当 我 与 戴维森 - 皮 隆 先生 就 
本 书 通 信 时 ， 他 提供 了 史 带 夫 : 吉 收集 的 数据 
http:/tpirsummaries.8m.com 。 它 包括 了 从 2011 年 到 2012 年 的 方 目 中 每 个 
展品 环 市 的 价格 ， 还 有 参赛 选手 就 展品 提供 的 出 价 。 


图 6-1 显 示 了 这 些 展品 价格 的 分 布 。 最 常见 的 展品 价值 大 约 是 28000 
美元 ， 但 古 第 一 组 展品 在 50000 美 元 附近 有 个 第 二 特征 ( 线 图 稍微 隆起 
的 地 方 ) ， 第 二 组 展品 的 价格 偶尔 会 超过 70000 美 元 。 
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图 6-1 “正确 的 价格 ”六 目 中 展品 价格 的 分 布 ，2011-2012 
这 些 分 布 基于 实际 的 数据 ， 但 用 高 斯 内 核 密度 估计 进行 了 平滑 

(KDE) 。 在 我 们 继续 之 前 ， 我 想 绕道 先 去 谈 谈 概率 密度 函数 和 
KDE 。 


6.3 ”概率 密度 函数 


到 目前 为 止 ， 我 们 已 经 和 概率 质量 函数 或 PMF 打 了 很 多 交道 。 
PMF 是 从 每 一 个 可 能 值 到 其 概率 的 映射 。 在 我 的 实现 中 ，Pmf 对 象 提供 
一 个 Prob 方法 获得 值 和 概率 ， 也 被 称 为 概率 质量 。 


在 数学 表示 上 ，PDF 通 常 写 成 一 个 函数 ;， 例如 ， 这 里 是 均值 为 0， 
标准 偏差 为 1 的 高 斯 分 布 的 PDF: 


exp 一 T2 1 '2) 


(7T)= 
f 志 


对 于 一 个 给 定 的 x 值 ， 这 个 函数 可 以 计算 出 概率 密度 。 在 更 高 的 密 
度 说 明 可 能 性 也 高 这 个 意义 上 ， 密 度 和 概率 质量 是 相似 的 。 


但 是 密度 不 是 概率 。 密 度 可 以 是 0 或 任何 正 值 ， 并 非 如 概率 那样 在 
0 和 1 之 间 有 界 。 


如 采 你 在 一 个 连续 区 间 对 密度 进行 积分 ， 其 结 采 是 一 个 概率 。 但 
在 本 书 中 ， 我 们 很 少 这 么 用 。 


相反 ， 我 们 主要 利用 概率 密度 作为 似 然 画 数 的 一 部 分 。 下 面 马 上 
会 有 到 一 个 例 于 


6.4 PDF 的 表示 

要 在 Python 中 表示 PDF，thinkbayes ,py 提供 一 个 名 为 PDF 的 
类 。PDF 是 一 个 抽象 类 ， 这 意味 着 它 定 义 了 PDF 接口 ， 但 不 提供 一 个 
完整 的 实现 。PDF 接 口 包 括 两 种 方法 ，Density 和 MakePmf : 


class Pdf(object): 


def Density(self, x): 
raise UnimplementedMethodException() 


def MakePpmf(self, xs): 
pmf = Pmf() 
for x in xs: 
pmf .Set(x, self.Density(x)) 
pmf .Normalize() 
return pmf 


Density 取 一 个 x 值 ， 并 返回 相应 的 密度 。Makepmf 生成 PDF 的 
近似 离散 值 。 


Pdf 提供 了 makepmf 的 实现 ， 而 没有 Density 方法 ，Density 
方法 必须 通过 子 类 来 提供 。 


实体 类 是 继承 自 抽 象 类 的 一 个 子 类 ， 它 提供 了 缺失 方法 的 具体 实 
现 。 例 如 ，GaussianPdf 扩 展 了 Pdf 并 提供 了 Density 方法 : 


class Gaussianpdf (Pdf): 


def _ init (self, mu, sigma): 
self.mu = mu 
self.sigma = sigma 


def Density(self, x): 
return scipy.stats.norm.pdf(x, self.mu, self.sigma) 


__init__ 接受 mu 和 sigma 参数 ， 分别 代表 分 布 的 平均 值 和 标准 
偶 老 ， 并 作为 属性 值 存 下 来 。 


Density 使 用 scipy,stats 中 的 一 个 函数 来 评估 高 斯 PDF。 这 
个 函数 是 norm.pdf ， 因 为 高 斯 分 布 也 称 为 “ 正 态 ” 分 布 。 


高 斯 PDF 由 一 个 简单 的 数学 函数 定义 ， 所 以 容易 求 值 。 而 且 由 于 现 
实 世 界 中 大 量 的 分 布 都 可 以 近似 为 高 斯 分 布 ， 它 的 用 处 也 很 大 。 

但 对 于 真实 数据 ， 并 不 能 保证 分 布 是 高 斯 或 任何 其 他 的 简单 数学 
函数 。 在 这 种 情况 下 ， 我 们 可 以 用 一 个 样本 来 估计 整体 的 PDF 。 

例如 ,“ 正 确 的 价格 ?中 的 数据 ， 我 们 有 313 个 第 一 组 展品 的 价格 。 
我 们 可 以 认为 这 些 值 是 展品 价格 的 一 个 样本 。 

该 示例 包括 以 下 值 ( 按 顺序 ) : 

28800, 28868, 28941, 28957, 28958 


在 样品 中 ， 没 有 出 现 28801 和 28867 之 间 的 值 ， 但 是 没有 理由 认为 
这 些 值 不 存在 。 基 于 我 们 的 背景 信息 ， 我 们 希望 在 这 个 范围 内 的 所 有 
值 有 同等 可 能 。 换 句 话 说 ， 我 们 预计 PDF 是 非常 平滑 的 。 


内 核 密度 估计 (KDE) 是 一 种 算法 ， 从 样本 找到 一 个 恰当 平滑 的 
PDF 进行 数据 拟 合 。 你 可 以 从 
http://en.wikipedia.org/Wiki/Kernel_density_estimation 了 解 到 一 些 细 市 。 


Scipy 提供 了 KDE 的 实现 ，thinkbayes 则 提供 了 一 个 
Estimated Pdf 类 使 用 它 : 


class Estimatedpdf (Pdf): 


def __ init (self, sample): 
self,.kde = scipy.stats.gaussian_kde(sample) 


def Density(self, x): 
return self.kde.evaluate(x) 


init_ 采集 样本 计算 内 核 密度 估计 。 其 结果 是 一 个 
gaussian_kde 对 象 ， 并 提供 了 一 个 evaluate 方法 。 


Density 接收 数据 ， 调 用 gaussian_kde .evaluate ， 然 后 返 
回 密度 结果 。 


最 后 ， 这 是 生成 的 代码 主干 : 


prices = ReadData( ) 
pdf = thinkbayes.EstimatedPdf(prices ) 


low, high = 0，75000 
n = 101 


xs = numpy.1linspace(low, high, n) 
pmf = pdf.MakePmf (xs) 


pdf 是 一 个 由 KDE 估 算 的 Pdf 对 象 ，pmf 则 是 一 个 近似 于 Pdf 的 Pmf 
对 象 ， 它 通过 在 成 序列 的 等 间距 区 间 上 的 求 密度 值 实现 。 

linspace 表示 “线性 空间 ”的 意思 。 它 接收 一 个 由 Low 和 high 界 
定 的 区 间 ， 以 及 区 间 内 的 n 个 数据 点 ， 并 返回 一 个 新 的 numpy 数组 ， 
该 数组 包含 了 n 个 low 和 high 间 的 等 间距 元 素 。 


现在 回 到 “正确 的 价格 ”问题 。 


6.5 ”选手 建 模 


图 6-1 的 PDF 信 计 了 展品 可 能 的 价格 分 布 。 如 琳 你 是 一 个 参加 市 目 
有 人 (在 
奖品 前 ) 。 


要 更 新 这 些 先 验 概率 ， 我 们 必须 回答 下 面 这 些 问 题 : 
1. 怎么 看 行 数据 以 及 如 何 量化 数据 ? 


2， 怎么 计算 似 然 画 数 ? 即 ， 对 于 每 个 价格 给 出 什么 样 的 假设 值 ， 
怎么 计算 数据 的 条 件 似 然 度 ? 


为 了 回答 这 些 问题 ， 我 将 选手 作为 一 种 误差 特性 已 知 的 价格 猜测 
仪 来 建 模 。 换 句 话 说， 当选 手 看 到 每 组 展品 猜 单个 奖品 的 价格 时 一 一 
不 考虑 奖品 是 展品 一 部 分 这 一 事实 〈 也 就 是 不 考虑 总 量 ) 一 一 再 把 这 
些 价 格 加 起 来 ， 得 到 的 总 和 称 为 猜测 价格 guess。 


在 这 一 模型 下 ， 我 们 必须 要 回答 的 问题 是“ 如 果实 际 价格 是 price 
， 选 手 的 估计 价格 束 是 猜测 价格 guess 的 似 然 度 ? ” 


如 采 我 们 定义 : 


error = price - guess (猜测 误差 = 展品 - 猜测 价 机 


然后 ， 我 们 可 以 提出 问题 “选手 的 估计 价格 背离 猪 测 误差 error 的 
似 然 度 是 什么 ? ” 


要 回答 这 个 问题 ， 我 们 要 再 次 使 用 历史 数据 。 图 6-2 显 示 了 diff 
的 累积 分 布 ，diff 是 参赛 者 的 出 价 和 展示 的 实际 价格 间 的 差 。 
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图 6-2 ”选手 出 价 和 实际 价格 差 ， 即 出 价差 diff 的 累积 分 布 (CDF) 
出 价差 diff 的 定义 是 : 


diff = price - bid (出 价差 = 奖品 价格 - 选手 出 价 ) 


当 diff 的 值 是 负 的 ， 出 价 惑 太 高 。 另 一 方面 ， 我 们 可 以 使 用 这 个 
分 布 计算 参赛 者 出 价 过 高 的 概率 : 第 一 组 选手 当中 出 高 价 的 比例 是 
25%; 第 二 组 选手 当中 出 高 价 的 比例 是 29% 。 


我 们 也 可 以 看 到 出 价 十 不 对 称 的 ， 即 选手 更 倾 辐 出 低 价 。 由 于 游 
戏 规则 这 很 好 理解 。 


最 后 ， 我 们 可 以 使 用 这 个 分 布 估计 参赛 者 猜测 价格 的 可 靠 性 ( 译 
注 : 由 猜测 误差 衡量 的 ) 。 这 一 步 有 点 束 手 ， 因 为 我 们 真 不 知道 选手 
的 猜测 价格 ， 只 知道 他 们 的 出 价 。 


因此 我 们 必须 做 出 一 些 假设 。 确 切 地 说 是 认为 error 的 分 布 是 一 
个 和 diff 方差 相同 ， 均 值 为 0 的 高 斯 分 布 。 


class Player (object): 


def _ init (self, prices, bids, diffs): 
self.pdf_price = thinkbayes.EstimatedPdf (prices) 


self.cdf_diff = thinkbayes.MakeCdfFromList(diffs) 
mu = 0 

sigma = numpy.std(diffs) 

self.pdf_error = thinkbayes.Gaussianpdf(mu, sigma) 


prices 是 一 个 展品 价格 的 序列 ，bids 是 一 个 选手 出 价 的 序列 ， 
diffs 是 一 个 出 价差 的 序列 ，diff =price-bid 。 


pdf_price 是 一 个 价格 的 平滑 PDF， 由 KDE 给 出 。cdf_diff 是 
出 价差 的 累积 分 布 ， 如 图 6-2 所 示 。pdf_error 是 猜测 误差 分 布 的 
PDF， 这 里 猜测 误差 = 展品 价格 -猜测 价格 (error=price-guess 
1 


再 强调 一 下 ， 我 们 使 用 diff 的 方差 估计 error 的 方差 ， 这 并 不 
完美 。 因 为 选手 的 报价 有 时 是 有 策略 的 。 例 如 ， 如 果 选 手 2 认 为 选手 1 
出 了 高 价 ， 选 手 2 可 能 会 使 用 一 个 非常 低 的 报价 。 在 这 种 情况 下 出 价差 
diff 就 没有 反映 出 猜测 误差 error 。 如 果 发 生 较 多 这 种 情况 ， 观 测 
到 的 diff 方差 会 高 估 猜 测 误差 error 的 方差 。 然 而 ， 我 认为 这 是 一 
个 合理 的 建 模 。 


准备 参赛 的 人 可 以 通过 看 以 前 的 比赛 ， 记 录 下 自己 猜测 价格 和 实 
际 价格 的 猜测 误 兰 ， 从 而 评估 目 己 猜测 误差 error 的 分 布 。 


6.6” 似 然 度 


现在 我 们 准备 好 编写 似 然 函 数 了 。 像 通 利 那样， 定义 一 个 新 类 : 


class Price(thinkbayes.Suite): 
def _ init (self, pmf, player): 
thinkbayes.Suite. init (self, pmf) 


self.player = player 


pmf 代表 了 先 验 分 布 ，player 是 一 个 前 面 章节 定义 的 Player 对 
象 。Likelihood 如 下 : 


def Likelihood(self, data, hypo): 
price = hypo 
guess = data 


error = price - guess 
like = self.player.ErrorDensity(error) 


return like 


hypo 十 展示 价格 的 假设 。data 是 选手 的 最 佳 猜测 价格 。error 是 
他 们 的 差 ，Like 是 给 定 假设 后 数据 的 可 能 性 。 


ErrorDensity 在 Player 中 定义 : 


# class Player: 
def ErrorDensity(self, error): 


return self.pdf_error.Density(error) 


ErrorDensity 通过 给 定 值 的 错误 来 评估 pdf_error ， 结 果 是 
概率 密度 。 因 此 它 并 不 是 真是 一 个 概率 。 但 请 记 住 Likelihood 不 需 
要 计算 概率 ， 它 只 需要 计算 比例 ， 只 要 所 有 likelihood 的 比例 系数 
是 相同 的 ， 我 们 对 后 验 分 布 进行 归 一 化 后 就 没 问 题 了 。 


所 以 说 概率 密度 是 一 个 相当 好 的 似 然 度 方法 。 


6.7 更 新 
player 提供 了 一 个 方法 以 选手 的 猜测 来 计算 后 验 分 布 : 


# class Player 


def MakeBeliefs(self, guess): 
pmf = self.PmfPrice() 


self.prior = Price(pmf, self) 
self.posterior = Self.prior.Copy() 
self.posterior.Update(guess) 


PmfPrice 生成 PDF 的 离散 近似 价格 ， 我 们 用 其 构建 先 验 概 率 。 
PmfPrice 使 用 MakePmf ， 评 估 pdf_price 序列 的 值 : 


# class Player 


n = 101 
price_xs = numpy.linspace(0, 75000, nN) 


def PmfPrice(self): 
return self.pdf_price.MakePpmf (self.price_xs) 


为 了 得 到 后 验 概 率 ， 我 们 先 复制 先 验 概率 ， 然 后 调用 Update， 
Update 在 每 次 假设 中 调用 Likelihood 一 次 ， 用 先 验 乘 以 似 然 度 ， 
最 后 归 一 化 。 


让 我 们 回 到 最 初 的 场景 。 假 设 你 是 选手 1， 当 看 到 展品 后 你 最 佳 的 
猜测 是 “奖品 的 总 价格 是 20000 美 元 ”。 


图 6-3 显 示 了 实际 价格 的 先 验 概率 和 后 验 概率 。 后 验 概 率 偏 左 些 ， 
因为 你 猜测 的 是 先 验 概 率 的 低 值 区 间 。 
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图 6-3 ”基于 一 个 20000 美 元 价格 的 最 佳 猜测 ， 选 手 1 的 前 验 和 后 验 分 布 


在 某 种 程度 上 这 个 结果 是 有 意义 的 。 在 先 验 上 最 有 可 能 的 展品 价 
格 值 是 27750 美 元 ， 你 最 好 猜测 是 20000 美 元 ， 而 后 验 概 率 的 均值 在 
25096 美 元 上 下 。 


而 从 另 一 个 角度 上 ， 你 可 能 会 发 现 这 个 结果 的 悖 论 ， 因 为 它 表明 
如 果 你 认为 价格 是 20000 美 元 ， 那 么 在 考虑 猜测 误差 的 情况 下 ， 你 应 该 
相信 价格 是 24000 美 元 。 


要 想 解决 这 个 明显 的 矛盾 ， 请 记 住 你 结合 了 两 个 信息 来 源 ， 过 去 
展品 的 历史 数据 和 你 看 到 奖品 后 作出 的 猜测 。 


我 们 把 之 前 的 历史 数据 当 作 先 验 概率 和 然后 基于 你 的 猜测 去 修正 
它 。 但 同样 的 ， 我 们 也 可 以 用 你 的 猜测 作为 先 验 而 把 基于 历史 的 数据 
0 (译注 : 修正 和 更 新 都 是 Update 的 意译 ， 结 合 上 下 文 使 


或 者 你 可 以 这 么 思考 一 一 最 有 可 能 的 展品 价格 并 不 是 你 最 初 的 猜 
测 值 一 一 于 是 这 一 点 也 束 没 那么 奇怪 了 。 


6.8 ”最 优 出 价 


现在 我 们 有 一 个 后 验 分 布 ， 我 们 可 以 使 用 它 来 计算 最 优 报 价 ， 我 
定义 为 预期 收益 最 大 化 的 报价 〈 见 
http://en.wikipedia.org/wiki/Expected_return ) 。 


我 将 在 本 世 中 采用 目 顶 癌 下 的 方法 ， 这 意味 着 我 将 移 演示 怎么 使 
用 ， 再 演示 为 什么 如 此 。 如 宁 你 看 到 一 个 阳 生 的 方法 ， 不 要 担心 ， 后 
面 接着 就 古 定义 。 


为 计算 最 优 报价 ， 我 写 了 一 个 类 称 为 Gaincalculator : 


Class GainCalculator(object): 


def _ init (self, player, opponent): 


self.player = player 
self .opponent = opponent 


Player 和 opponent 都 是 Player 对 象 。 


GainCalculator 提供 ExpectedGains ， 为 每 次 出 价 计算 投标 
序列 和 预期 收益 : 


def ExpectedGains(self, low=0, high=75000, n=101): 
bids = numpy.linspace(low, high, n) 


gains = [self.ExpectedGain(bid) for bid in bids] 


return bids, gains 


low 和 high 表示 了 出 价 可 能 的 区 间 ，n 是 报价 的 次 数 。 


ExpectedGains 调用 ExpectedGain ， 计 算 对 于 一 个 给 定 的 报 
价 的 预期 值 : 


def ExpectedGain(self, bid): 


suite = self.player.posterior 
total = 0 


for price, prob in sorted(suite.Items()): 


gain = self.Gain(bid, price) 
total += prob * gain 
return total 


ExpectedGain 遍历 后 验 概率 的 值 ， 给 定 展品 的 实际 价格 后 计算 
每 次 出 价 的 回报 。 它 针对 概率 进行 加 权 计 算 然后 返回 总 和 。 


ExpectedGain 调用 Gain ，Gain 通过 报价 和 实际 价格 返回 预期 


def Gain(self, bid, price): 
if bid > price: 
return 0 


diff 
prob 


= price - bid 
= self.Probwin(diff) 
If diff <= 250: 

return 2 * price * prob 
else: 
return price * prob 


如 果 你 出 价 高 了 将 一 无 所 获 。 反 过 来 ， 我 们 计算 出 价 和 价格 的 
差 ， 这 个 决定 了 你 获胜 的 概率 。 


如 所 大 寞 候 于 250 关 7 人 有 三 了 。 为 简单 起 见 ， 我 假设 展品 有 相同 
的 价格 。 因 为 这 个 结果 是 罕见 的 ， 造 成 的 差别 不 大 。 


后 ， 我 们 要 基于 diff 计算 的 赢 的 概率 : 


def Probwin(self, diff): 
prob = (self.opponent.ProbOverbid() + 
self .opponent .ProbworseThan(diff)) 


return prob 


如 果 你 的 对 手 出 价 高 ， 你 赢 。 否 则 的 话 ， 你 必须 希望 你 的 对 手 的 
出 价差 大 于 这 个 diff 值 ，Player 提供 了 一 些 方法 来 计算 这 两 个 可 能 
性 : 


# class Player: 


def ProbOverbid(self): 


return self.cdf_diff.Prob(-1) 
def ProbworseThan(self, diff): 
return 1 - self.cdf_diff.Prob(diff) 


这 段 代码 可 能 有 些 令 人 疑惑 ， 因 为 这 一 计算 过 程 是 以 对 手 的 角度 
进行 的 ， 对 手 计算 的 正 是 “我 出 高 价 的 可 能 性 是 多 少 ?” 和 “我 的 出 价差 超 
过 diff 的 概率 是 多 少 ?” 


两 种 答案 都 是 基于 diff 的 CDF。 如 果 对 手 的 差异 小 于 或 等 于 1， 
你 说 。 如 果 对 手 的 diff 比 你 大 ， 你 顾 。 人 否则 你 输 。 


最 后 ， 计 算 最 优 报 价 的 代码 : 
# class Player: 
def OptimalBid(self, guess, opponent): 
self.MakeBeliefs(guess) 


calc = GainCalculator(self, opponent) 
bids, gains = calc.ExpectedGains() 


gain, bid = max(zip(gains, bids)) 
return bid, gain 


给 定 一 个 对 手 和 guess，0ptimalBid 将 计算 出 后 验 分 布 ， 实 例 化 
一 个 GainCalculator 计算 各 种 投标 可 能 区 间 的 预期 收益 回报 并 返回 
最 优 报 价 和 预期 收益 。 太 棒 了 ! 


图 6-4 显 示 了 基于 这 样 一 个 场景 下 的 结果 ， 选 手 1 的 最 住 猜测 是 
20000 美 元 ， 选 手 2 的 猜测 是 40000 美 元 。 


预期 收益 C$ 》 
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图 6-4 ”当选 手 1 的 最 佳 猜测 是 20000 美 元 ， 选 手 2 的 最 佳 猜测 是 40000 美 元 时 ， 预 期 收益 的 对 
照 。 


选手 1 的 最 优 报 价 是 21000 美 元 ， 产 生 近 16700 美 元 的 预期 回报 。 


近 
这 是 一 个 显得 很 不 寻常 的 最 优 报价 其 实 比 选手 的 最 佳 猜测 高 一 点 


选手 2 的 最 优 报价 是 31500 美 元 ， 产 生 近 19400 美 元 的 预期 回报 。 这 
种 最 优 报价 小 于 最 佳 猜测 的 情况 更 加 典型 。 


6.9 ”讨论 


贝 叶 斯 估计 的 特点 之 一 束 古 结 来 来 目 后 验 分 布 这 种 形式 。 经 典 的 
信 计 通常 会 生成 一 个 蛙 一 的 点 信 计 或 奎 信 区 间 ， 如 末 佑 计 就 是 过 程 的 
最 后 一 步 ， 这 是 足够 的 。 但 如 果 你 想 以 一 个 估计 作为 后 续 分 析 的 输 
入 ， 扩 信 计 和 间隔 往往 没有 多 少 帮 助 。 


在 这 个 例子 中 ， 我 们 使 用 后 验 分 布 来 计算 最 优 报价 。 给 定 出 价 的 
回报 是 不 对 称 和 不 连续 的 (如 果 你 高 价 ， 游 戏 失败 ) ， 所 以 单纯 分 析 
很 难 解决 这 个 问题 。 但 用 数值 计算 的 方法 就 相 对 们 单 。 


贝 叶 斯 方法 的 初学 者 常 第 通过 均值 或 者 最 大 似 然 合计 来 接 述 后 锭 
分 布 ， 这 种 概述 是 有 用 的 ， 不 过 如 采 你 需要 的 仅仅 就 是 这 些 内 容 ， 也 
许 一 开始 就 不 性 虑 贝 叶 斯 方法 。 


在 你 需要 将 后 验 概率 带 入 后 续 分 析 而 进行 模型 决策 时 ， 贝 叶 斯 方 
法 就 相当 有 用 了 ， 就 如 我 们 在 本 章 做 的 一 样 。 另 外 ， 进 行 预测 时 ， 贝 
叶 斯 方法 也 很 有 用 ， 下 一 章 我 们 会 看 到 案例 。 


第 7 章 ”预测 
7.1 ”波士顿 棕 能 队 问题 


在 2010 一 2011 的 国家 冰球 联盟 (NHL) 总 决赛 中 ， 我 喜爱 的 7 个 赛 
季 冠 军 波 士 顿 棕熊 队 与 我 哄 之 以 锚 的 温哥华 加 拿 大 人 队 对 决 。 波 士 顿 
以 0 :1 和 2 : 3 输 掉 了 前 两 场 比赛 ， 以 8 :1 和 4 : 0 赢 了 后 续 两 场 比赛 。 那 
么 在 赛季 的 这 个 时 间 点 上 上， 考虑 波士顿 赢 下 一 场 比赛 的 可 能 性 是 多 
少 ? 赢得 总 冠军 的 概率 是 多 少 ? 

与 往常 一 样 ， 要 回答 这 样 的 问题 我 们 需要 做 一 些 假设 。 首 先 ， 有 
理由 相信 在 冰球 比赛 中 的 进 球 得 分 至 少 近似 于 泊 松 过 程 ， 这 意味 着 在 
比赛 的 任何 时 间 上 都 有 相同 的 得 分 可 能 。 


其 次 ， 我 们 可 以 假设 ， 长 期 来 看 对 某 一 个 特定 的 对 手 ， 每 队 都 有 
一 个 单 场 平均 得 分 数 ， 记 为 4 。 


根据 这 些 假设 ， 我 回答 这 个 问题 的 策略 是 : 
1， 从 以 前 的 比赛 统计 资料 ， 为 4 选择 一 个 先 验 分 布 。 
2.， 由 前 四 场 比赛 的 得 分 估计 每 队 的 A 。 


3. 用 4 的 后 验 分 布 来 计算 每 队 的 进 球 分 布 ， 得 分 老 的 分 布 ， 还 有 
每 个 球 队 下 一 场 比赛 获胜 的 概率 。 
4. 计算 每 个 队 启 得 赛季 冠军 的 可 能 性 。 


要 远 择 一 个 先 验 分 布 ， 我 从 http:/www.nhl.com 获得 了 一 些 统计 数 
字 ， 具 体 包 招 每 队 在 2010 一 2011 赛 季 平 均 每 场 进 球 的 分 布 ， 大 臻 是 均 
值 为 2.8， 标 准 差 为 0.3 的 高 斯 分 布 。 


高 斯 分 布 是 连续 的 ， 但 我 们 会 用 离散 的 Pmf 近似 它 ， 
thinkbayes 提供 了 如 下 的 MakeGaussianPmf 实现 : 


def MakeGaussianpmf (mu, sigma, num_sigmas, N=101): 
pmf = Pmf() 
low = mu - num_sigmas*sigma 
high = mu + num_sigmas*sigma 


for x in numpy.linspace(low, high, n): 


p = scipy.stats.norm.pdf(mu, sigma, x) 
pmf.Set(x, p) 

pmf .Normalize() 

return pmf 


mu 和 sigma 是 高 斯 分 布 的 均值 和 标准 偏差 。num_sigmas 是 低 
于 和 高 于 Pmf 均 值 的 标准 偏差 数量 ，n 为 Pmf 中 条 目的 个 数 。 


同 之 前 一 样 ， 我 们 使 用 numpy .linspace 构建 一 个 在 上 下 界 区 间 
(包括 边界 ) 上 有 着 等 间隔 值 的 n 个 条 目的 数组 。 


norm.pdf 估算 出 高 斯 概率 密度 函数 (PDF) 
再 回 到 比赛 问题 上 ， 下 面 是 一 组 有 天 值 的 假设 。 


class Hockey(thinkbayes.Suite): 


def _ init (self): 


pmf = thinkbayes.MakeGaussianpmf(2.7, 0.3, 4) 
thinkbayes.Suite. init (self, pmf) 


这 样 的 先 验 分 布 是 均值 2.7， 标 准 偏差 0.3 的 高 斯 分 布 ， 范 围 症 上 下 
以 均值 为 中 心 的 4 个 sigma。 


一 如 以 往 ， 我 们 必须 决定 如 何 表 示 每 个 假设 ， 在 这 种 情况 下 ， 我 
将 1=x (x 是 浮 点 值 ) 作为 假设 。 


7.2 ” 泊 松 过 程 


在 数理 统计 上 ， 过 程 是 一 个 物理 系统 的 随机 模型 “随机 ”是 指 该 
模型 包含 某 种 随机 量 ) 。 例 如 ， 一 个 伯 努 利 过 程 是 一 个 事件 序列 的 模 
型 ， 称 为 试验 ， 其 中 每 个 试验 有 两 种 可 能 的 结 采 ， 比 如 成 功 和 失败 。 
因此 ， 对 于 一 系列 的 硬币 翻 较 事件 ， 或 者 一 系列 的 射击 得 分 事件 ， 伯 


努 利 过 程 是 一 个 天 然 的 模型 。 泊 松 过 程 是 伯 努 利 过 程 的 连续 版 本 ， 一 
个 事件 在 任何 时 间 点 上 发 生 的 概率 是 相同 的 。 油 松 过 程 可 应 用 于 到 达 
商店 的 客户 ， 公 人 交 车 到 站 ， 或 者 冰球 比赛 的 进 球 得 分 上 。 

在 许多 实际 系统 中 ， 事 件 的 概率 随时 间 变 化 。 客 户 在 一 天 的 某 些 
时 段 去 商店 的 可 能 性 更 高 ， 公 交 和 车 应 当 以 固定 的 间隔 到 达 ， 比 赛 中 不 
同 的 时 间 段 的 得 分 有 高 低 之 分 。 

但 所 有 模型 都 是 为 了 人 徐 化 事物 ， 在 这 种 情况 下 ， 以 泪 松 过 程 模拟 
冰球 比赛 是 一 个 合理 的 选择 。 豪 雅 ， 称 勒 和 和 鲁 布 纳 (2010) 分 析 德 国 
足球 联赛 的 得 分 ， 得 出 了 相同 的 结论 ， 见 
http:/www.cimat.mx/Eventos/vpec10/img/poisson.pdf ° 


使 用 该 模型 的 优点 是 ， 我 们 可 以 有 效 计算 出 每 场 比赛 进 球 的 分 布 
以 及 进 球 时 间 点 间隔 的 分 布 。 具 体 地 ， 如 采 一 场 比赛 平均 进 球 数 是 lam 
， 每 场 比 赛 进 球 的 分 布 可 由 泊 松 PMF 给 


def EvalPoissonpmf (lam, k): 
return (lam)**k * math.exp(-lam) / math.factorial(k) 


得 分 间隔 的 分 布 由 指数 型 PDF 给 出 : 


def EvalExponentialPpdf (lam, x): 
return lam * math.exp(-lam * x) 


我 用 了 变量 lam ， 因 为 lambda 是 Python 中 的 保留 关键 字 。 这 两 
个 函数 都 在 thinkbayes.py 中 。 


7.3 “后 验 


现在 ， 我 们 可 以 计算 一 个 给 定 1lam 值 的 球 队 在 一 场 比赛 中 进 k 个 
球 的 可 能 性 : 


# class Hockey 


def Likelihood(self, data, hypo): 
lam = hypo 


k = data 
like = thinkbayes.EvalPoissonpmf (lam, k) 
return like 


每 个 假设 都 站 的 一 个 可 能 的 值 ;， 数据 是 得 分 Kk ， 利 用 这 里 的 似 然 
函数 ， 我 们 可 以 为 每 个 球 队 准 备 一 个 suite 对 象 ， 接 着 用 前 四 场 比赛 的 
得 分 进行 修正 。 


suite1 = Hockey('bruins') 
suitei.UpdatesSet([0, 2, 8, 4]) 


suite2 = Hockey('canucks') 
suite2.Updateset([1, 3, 1, 0]) 


图 7-1 显 示 了 给 定 lam 的 后 验 分 布 结果 。 根 据 前 四 场 比 赛 的 数据 ， 
最 有 可 能 的 lam 值 加 拿 大 人 队 是 2.6， 棕 熊 队 是 2.9 (译注 :冰球 比赛 进 
一 球 得 到 一 分 ， 因 此 对 “得 分 "和 “ 进 球 ” 结 合 上 下 文 灵活 使 用 ) 。 


一 棕熊 队 
一 一 加拿大 人 队 


2.0 2.5 3.0 3.5 4.0 
每 场 比 赛 的 得 分 ( 进 球 ) 


图 7-1 每 场 比赛 进 球 数 的 后 验 分 布 


7.4” 进 球 分 布 
要 计算 每 个 团队 赢得 下 一 场 比赛 的 概率 ， 我 们 需要 计算 各 球 队 得 


分 的 分 布 。 


如 有 我 们 知道 确切 的 Lam 取 值 ， 我 们 可 以 再 次 使 用 泊 松 分 布 。 
thinkbayes 提供 了 一 个 方法 计算 泊 松 分 布 的 分 段 近 似 值 : 


def MakePoissonpmf(lam, high): 
pmf = Pmf() 
for k in xrange(0, high+1): 
p = EvalPoissonPpmf (lam, k) 


pmf .Set(k, p) 
pmf .Normalize() 
return pmf 


所 计算 的 Pmf 值 的 范围 从 0 到 high 。 所 以 ， 如 果 lam 值 为 3.4， 我 
们 可 以 计算 如 下 : 


lam = 3.4 
goal_ dist = thinkbayes.MakePoissonPpmf (lam, 10) 


我 选择 了 上 界 10， 因 为 比赛 中 得 分 超过 10 球 的 概率 是 相当 低 的 。 


目前 为 止 这 些 都 很 丛 单 ， 问 题 和 我 们 不 知道 am 的 确切 值 。 不 过 
还 好 ， 我 们 有 lam 可 能 值 的 分 布 。 


对 于 lam 的 每 一 个 值 ， 得 分 古 泊 松 分 布 。 这 样 得 分 的 整体 分 布 吏 
征 这 些 泊 松 分 布 的 混合 分 布 ， 根 据 lam 分 布 的 概率 进行 加 权 。 


给 是 1am 的 后 验 分 布 ， 下 面 是 计算 得 分 分 布 的 代码 ; 


def MakeGoalPmf(Suite ) : 
metapmf = thinkbayes,.Pmf() 


for lam, prob in Suite.Items() : 
pmf = thinkbayes.MakePoissonPpmf (lam, 10) 
metapmf.Set(pmf, prob) 


mix = thinkbayes.MakeMixture(metapmf) 
return mix 


对 于 lanm 的 每 一 个 值 ， 我 们 创建 一 个 泊 松 Pmf， 并 把 它 添加 到 元 
Pmf。 我 称 其 为 元 Pmf， 


因为 它 是 一 个 包含 多 个 Pmfs 值 的 Pmf 对 和 象 。 


然后 我 们 用 MakeMixture 计算 混合 分 布 (参考 MakeMixture 
的 “混合 分 布 "， 第 45 页 ) 。 


图 7-2 显示 了 由 此 产生 的 棕熊 队 和 加 拿 大 人 队 的 进 球 分 布 。 标 熊 队 
在 接 下 来 的 比赛 中 不 太 可 能 只 进 不 到 3 球 ， 更 可 能 进 4 球 以 上 。 


0.25 


0.20 


0.05 


7.5 ”获胜 的 概率 


为 了 得 到 获胜 的 概率 ， 首 先 我 们 计算 两 队 进 球 得 分 差异 的 分 布 鉴 


串 : 


goal_dist1 = MakeGoalPmf (Suitel) 
goal_dist2 = MakeGoalPmf (suite2) 


diff = goal dist1 - goal_dist2 


减法 运算 符 调用 Pmf .sub_“， 它 枚 举 一 对 值 (两 队 得 分 ) 并 计 
A 39 | BS 


如 果 得 分 差别 是 正 的 ， 棕 熊 队 顾 ; 如 果 为 负 ， 加 拿 大 人 队 顾 :如 
果 是 0， 就 古 平 局 : 


p_win = diff.ProbGreater (0) 
p_loss = diff.ProbLess (0) 


p_tie = diff.Prob (0) 


由 前 一 节 中 的 得 分 的 分 布 看 ，p_win 是 46%，p_loss 是 37%6， 
p_tie 为 17%。 


在 规定 比赛 时 间 结 束 时 如 果 出 现 平 局 ， 两 队 会 进行 加 时 赛 ， 直 到 
其 中 一 队 得 分 。 由 于 一 旦 进 球 比 赛 就 会 马上 结束 ， 这 种 加 时 赛 形式 被 
尔 为 “突然 死亡 法 则 ”。 
7.6 ”突然 死亡 法 则 

为 了 计算 在 加 时 赛 通 过 “突然 死亡 法 则 ? 顾 球 的 概率 ， 重 要 的 统计 
指标 不 是 每 场 比赛 进 球 数 ， 而 是 第 一 个 进 球 的 时 间 。 假 设 的 进 球 是 一 
个 泊 松 过 程 ， 和 意味 着 得 分 之 间 的 时 间 服 从 指数 分 布 。 

给 定 lam ， 我 们 可 以 计算 得 分 之 间 的 时 间 : 


lam= 3.4 
time_dist = thinkbayes.MakeExponentialPmf (lam, high = 2 ， 


101) 


high 是 分 布 的 上 界 。 在 这 个 例子 中 我 选择 2， 因 为 超过 2 场 比 赛 不 
进 球 的 概率 是 很 小 的 。n 是 pmf 里 面值 的 个 数 。 


如 采 我 们 知道 am 的 确切 值 ， 这 就 是 全 部 需要 的 代码 了 。 但 我 们 
不 确定 lam ， 我 们 知道 的 是 lam 可 能 值 的 后 验 概率 分 布 。 


所 以 ， 如 我 们 在 计算 得 分 分 布 中 做 的 一 样 ， 我 们 建立 一 个 元 Pmf 并 
且 计 算 Pmfs 的 混合 物 。 


def MakeGoalTimePmf (suite): 
metapmf = thinkbayes.Pmf() 


for lam, prob in Suite,Items(): 
pmf = thinkbayes.MakeExponentialPpmf(lam, high=2, n=2001) 
metapmf.Set(pmf, prob) 


mix = thinkbayes.MakeMixture(metapmf) 
return mix 


图 7-3 显 示 了 生成 的 分 布 。 对 于 时 间 小 于 1 局 (比赛 的 /3，1 场 比赛 
有 3 局 ) ， 棕 熊 队 更 容易 得 分 。 加 时 赛 时 间 拖 得 越 长 ， 加 拿 大 人 队 越 可 


能 得 分 。 


0.0030 
= 
0 0025| see 加 全 大 人 队 


0.0010 


0.5 1.0 1.5 2.0 
间隔 (以 比赛 场次 计 ) 


图 7-3 ”两 次 得 分 间 的 间隔 时 间 分 布 时 间 以 比赛 场次 计算 ) 


我 设置 了 相当 高 的 n 值 ， 以 最 大 限度 地 减少 平局 的 数量 ， 因 为 两 文 
球 队 是 不 可 能 同时 得 分 的 。 


现在 我 们 计算 棕熊 队 首 先 得 分 的 概率 : 


time_dist1 = MakeGoalTimePmf (Suitel) 
time_dist2 MakeGoalTimePmf (suite2) 


p_overtime thinkbayes.PmfProbLess (time_dist1 , time_dist2) 


对 柠 熊 队 而 言 ， 启 得 加 时 赛 的 概率 为 52% 。 


最 后 ， 获 胜 的 总 概率 为 常规 时 间 话 得 比赛 的 机 会 加 上 加 时 赛 寿 得 
比赛 的 概率 。 


p_tie = diff.Prob (0) 
p_overtime = thinkbayes.PmfProbLess (time_dist1 ， time_dist2 ) 


p_win = diff.ProbGreater (0)+ p_tie * p_overtime 


所 以 对 棕熊 队 而 言 ， 启 的 下 一 场 比赛 的 整体 概率 是 559%0。 


如 采 要 说 得 整个 赛季 〈 总 决赛 ) 的 话 ， 标 熊 队 可 以 在 下 两 场 比赛 
中 连 胜 或 在 接 下 来 两 场 中 输 掉 一 场 而 说 得 第 三 场 。 同 样 ， 我 们 可 以 计 
算出 总 的 概率 : 


# win the next two 
p_series = p_win**2 


# split the next two, win the third 
p_series += 2 * p_win * (1-p_win) * p_win 


-因此 棕 明 从 襄 得 赛季 总 宁 军 的 机 会 大 57% "在 2011 年 ， 他 们 确实 做 
| 了 。 


7.7 讨论 


与 往常 一 样 ， 本 章 讨论 的 分 析 是 基于 模型 决策 的 ， 建 模 几 乎 总 是 
一 个 反复 过 代 的 过 程 。 


一 般 情况 下 ， 你 要 从 一 些 简单 的 能 产生 近似 答案 的 模型 开始 ， 找 
出 错误 的 可 能 来 源 ， 并 找到 机 会 来 改进 模型 。 


在 这 个 例子 中 ， 我 会 考虑 以 下 选项 : 


。 我 为 每 文 队 伍 选 择 了 一 个 基于 平均 得 分 的 先 答 。 但 这 个 统计 是 所 
有 对 手 的 平均 值 。 针 对 某 一 特定 的 对 手 ， 我 们 可 以 更 灵活 些 。 例 
如 ， 如 有 果 最 好 锋线 的 队伍 和 最 糟糕 后 防 的 队伍 比赛 ， 比 赛 得 分 预 
期 目标 可 以 是 平均 值 以 上 的 几 个 标准 偶 老 。 

。 关于 数据 ， 我 只 用 了 冠军 赛 前 四 场 比赛 的 数据 。 如 果 两 只 球 队 在 
常规 赛 比赛 过 ， 我 可 以 使 用 种 规 赛 的 结果 数据 。 有 些 复杂 的 是 球 
队 成 员 在 这 期 间 的 变动 一 一 由 于 受 仿 和 赛季 内 的 球员 交易 ， 所 以 
最 好 给 近期 的 比赛 结果 更 多 的 权 值 。 

。 为 了 充分 利用 所 有 可 用 的 信息 ， 我 们 可 以 从 所 有 常规 赛 得 分 估计 
各 队 的 进 球 率 ， 用 两 只 队伍 间 的 比赛 结果 进行 进一步 的 适度 修 
正 。 这 样 做 会 有 些 复 杂 ， 但 仍然 是 可 行 的 。 


对 于 第 一 种 选择 ， 我 们 可 以 用 常规 赛 的 比赛 结果 估计 队伍 间 比 赛 
的 变化 量 。 要 感谢 德 克 . 霍 格 ， 我 从 http:/Wforechecker.blogspot.com ， 上 
获得 了 常规 赛 每 场 比赛 的 进 球 得 分 数 〈 不 含 加 时 赛 ) 


不 同 赛区 的 队伍 在 常规 赛 仅 相遇 1 次 到 2 次 ， 所 以 我 把 重点 放 在 进 


行 4 到 6 场 比赛 的 队伍 上 。 对 于 每 一 对 球 队 ， 我 计算 他 们 每 场 比赛 的 平 
均 进 球 作为 A 的 估计 值 ， 然 后 绘制 估计 的 分 布 。 


这 些 佑 计 的 均值 为 2.8， 不 过 标准 差 为 0.85， 比 我 们 仅 吏 每 文 队 伍 
计算 的 更 高 。 

如 果 我 们 采用 这 一 较 高 的 方差 再 次 进行 前 验 概率 分 析 ， 棕 熊 队 赢 
得 系列 赛 的 概率 是 80%， 与 采用 较 低 方差 得 到 的 57% 相 比 高 很 多 。 

所 以 ， 事 实证 明 ， 这 一 结果 对 先 验 概率 是 敏感 的 ， 因 此 自然 使 我 
们 思考 ， 究 竟 采 用 多 少数 据 进行 分 析 才 合理 。 

考虑 到 不 同 模型 会 产生 的 差异 (高 方差 和 低 方差 ， 这 似乎 说 明 
值得 我 们 投入 一 些 精 力 来 获得 合适 的 前 验 概率 。 

本 章 的 代码 和 数据 都 可 以 从 http:NWthinkbayes.com/hockey.py 和 


http:/thinkbayes.com/hockey_data.csv 获得 。 欲 了 解 更 多 信息 ， 请 参阅 前 
言 的 “代码 指南 ”。 


7.8 ”练习 

练习 7-1 。 

如 果 公 交 车 到 站 间隔 是 20 分 钟 ， 你 到 达 公 交 站 的 时 间 是 随机 的 ， 
那么 你 等 每 公交 车 的 时 间 从 0 到 20 分 钟 之 间 均 匀 分 布 。 但 在 现实 中 ， 公 
区 车 抵达 的 间隔 是 有 变动 的 。 假 设 你 正在 等 得 一 辆 公交 车 ， 而 你 知道 
公克 车 抵达 时 间 的 历史 分 布 。 计 算 你 等 待 时 间 的 分 布 。 


提示 : 假设 公交 车 间隔 为 等 概率 的 5 分 钟 或 10 分 钟 。 你 刚好 在 一 个 
10 分 钟 发 车 间隔 中 到 达 公 交 站 的 概率 是 多 少 ? 


我 在 下 一 章 提 供 了 这 个 问题 的 一 个 解法 。 

练习 7-2。 

假设 乘客 到 达 公 交 车 站 是 一 个 参数 为 的 理想 泊 松 过 程 。 如 果 你 
到 达 车 站 ， 发 现 有 3 人 在 等 待 ， 对 你 而 言 ， 距 离 上 一 趟 公交 车 抵达 过 去 
了 多 久 时 间 的 后 验 分 布 是 什么 ? 

我 下 一 章 提 供 了 这 个 问题 的 一 种 解法 。 

练习 7-3。 

假设 你 是 一 位 在 新 的 环境 中 进行 害虫 取样 的 生态 学 家 。 

你 在 测试 地 区 安置 了 100 个 陷阱 ， 第 二 天 回去 检查 它们 。 你 发 现 有 
37 个 陷阱 被 触发 捕获 害虫 。 一 旦 陷阱 触发 ， 它 束 不 能 再 继续 捕获 其 他 
昆虫 直到 被 复位 。 


如 果 你 重 设 陷阱 ， 两 天 后 (内 ) 回来 ， 你 预期 发 现 多 少 被 触发 的 
陷阱 ? 计算 这 一 后 验 / 预 测 的 分 布 。 


练习 7-4。 


假设 你 是 一 个 管理 有 100 个 灯泡 公寓 的 大 楼 经 理 。 你 的 责任 是 在 灯 
泡 破 损 时 更 换 灯 泡 。 


1 月 1 日 ， 所 有 100 个 灯泡 都 是 好 的 。 当 你 2 月 1 日 检查 时 ， 你 发 现 有 
3 个 灯泡 焊 灭 。 假 设 你 4 月 1 日 回来 检查 ， 你 预期 会 有 多 少 灯 泡 坏 挥 ? 


在 前 面 的 练习 中 ， 你 可 以 合理 地 假定 一 个 事件 在 任意 时 间 发 生 的 
概率 相同 。 对 于 灯泡 ， 失 效 的 可 能 性 取决 于 灯泡 的 寿命。 具体 而 言 ， 
旧 灯 泡 的 故障 率 会 随 看 灯丝 的 蒸发 而 增加 。 


这 个 问题 相 比 其 他 问题 更 开放 ， 你 将 不 得 不 作出 决策 模型 。 
你 可 能 要 了 解 一 下 Weibull 分 布 ( 


http://en.wikipedia.org/wiki/Weibull_distribution ) 。 或 寻找 一 些 灯 泡 寿 合 
曲线 的 相关 信息 。 


他 


第 8 章 ”观察 者 的 偏差 


8.1 红线 问题 


在 马 院 诸 塞 州 , “红线 ?是 连 接 剑 桥 和 波士顿 的 地 铁 线路 。 我 在 剑 
桥 工 作 的 时 候 乘坐 红线 地 铁 从 Kendall 广 场 到 南 站 ， 再 转 乘 通勤 铁路 到 
Needham。 上 下 班 高 峰 期 ， 红 线 列车 平均 每 7~8 分 钟 运行 一 趟 。 


当 到 达 车 站 时 ， 我 可 以 根据 站 人 台 上 的 乘客 人 数 估算 下 一 班车 到 达 
的 时 间 。 如 琳 只 有 几 个 人 ， 束 推测 刚刚 错过 了 地 铁 ， 下 一 班 地 铁 预 计 
要 等 约 7 分 钟 。 如 果 站 合 上 有 较 多 乘客 ， 束 估计 地 铁 会 很 快 到 达 。 但 是 
由 则 要 怀疑 列车 未 能 如 期 运行 ， 所 以 会 回 到 街 上 
叫 出 租车 出 行 。 


在 等 待 火 车 时 ， 我 思考 了 怎样 通过 贝 叶 斯 估计 帮助 我 预测 等 待 时 
间 ， 并 决定 什么 时 候 应 该 放弃 坐 火 车 而 改 为 乘坐 出 租车 。 本 章 将 介绍 
我 采用 的 分 析 过 程 。 


本 章 内 容 源 自 Brendan Ritter 和 Kai Austin 负 责 的 一 个 项 目 ， 他 们 和 
我 在 欧 林 学 院 同 教 一 个 班 。 本 章 中 的 代码 可 以 从 
http:/thinkbayes.com/redline.py 得 到 。 我 用 来 收集 数据 的 代码 在 
http:/thinkbayes.com/redline_data.py 。 僻 了 解 更 多 信息 ， 请 参见 前 言 
的 “代码 指南 ”。 


8.2 ”模型 


在 分 析 前 ， 我 们 必须 决定 一 些 建 模 细 入 。 上 前 先 ， 我 将 旅客 抵达 车 
站 当 作 泊 松 过 程 ， 这 意味 着 我 假设 乘客 可 能 在 任何 时 间 等 概率 到 达 ， 
乘客 有 一 个 未 知 的 到 达 率 A ， 以 每 分 钟 到 达 的 乘客 计量 。 因 为 我 在 很 短 
ee 而 且 是 在 每 天 的 同一 时 间 ， 所 以 我 假设 ) 为 沼 


另 一 方面 ， 列 车 的 到 达 过 程 不 是 泊 松 的 。 高 峰 时 间 从 终点 \ 灰 西 
鲜 站 ) 去 波士顿 的 列车 每 隔 7 一 8 分 钟 发 出 ， 但 到 Kendall 广 场 的 时 候 ， 
列车 间隔 在 3 一 12 分 钟 内 变化 。 


为 了 收集 关于 列车 发 车 间隔 的 数据 ， 我 编写 了 下 载 实时 数据 的 脚 


本 http:/www.mbta.com/rider_tools/developers/ ， 选 择 往 南 到 达 Kendall 广 
场 的 列车 ， 并 在 数据 库 中 记录 其 到 达 时 间 。 脚 本 在 每 个 工作 日 下 午 4 点 


到 下 午 6 点 运行 ， 持 续 5 天 ， 每 天 记录 了 15 次 列车 到 达 。 然 后 我 计算 前 


后 到 达 列 车 的 时 间 间 隔 ， 这 些 分 布 的 差别 如 图 8-1 所 示 ， 标 为 z 。 


eee 实际 分 布 z 
me 偏差 分 布 Zzb 


CDF 累 积分 布 晒 数值 


0 5 10 15 
时 间 (分 钟 ) 


图 8-1 根据 收集 到 的 数据 绘制 的 列车 间隔 的 PMF， 以 KDE 平 消 处 理 
(z 为 实际 分 布 ，zb 是 由 乘客 看 到 列车 间隔 的 偏差 分 布 ) 


如 和 你 下 午 4 点 到 下 午 6 点 在 站 全 记录 列车 的 间隔 ， 这 束 是 你 看 到 
列车 间隔 时 间 的 分 布 。 但 是 如 果 你 随机 到 达 站 人 台 (不 管 列车 时 刻 
表 ) ， 会 看 到 一 个 与 此 不 同 的 分 布 ， 随 机 到 达 的 乘客 所 看 到 的 列车 间 
隔 的 平均 值 ， 比 实际 的 平均 值 要 高 一 些 。 


为 什么 ? 因为 乘客 到 达 的 时 间 间 隔 更 可 能 是 一 个 较 关 的 区 间 。 考 
虑 一 个 简单 的 例子 : 假设 列车 间 隅 是 5 分 钟 或 者 10 分 钟 (相等 的 概 
率 ) 。 在 这 种 情况 下 ， 列 车 之 间 的 平均 时 间 是 7.5 分 钟 。 
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但 乘客 更 可 能 在 10 分 钟 的 时 段 内 到 达 而 不 是 在 5 分 钟 内 ， 事 实 上 前 
者 是 后 者 的 两 倍 。 如 果 我 们 调查 到 站 旅客 会 发 现 ， 其 中 2/3 在 10 分 钟 的 
时 段 内 到 达 ，5 分 钟 时 段 内 到 达 的 只 有 1/3。 所 以 到 站 乘客 观察 到 的 列 攻 
间 隅 平均 值 是 8.33 分 钟 。 


这 种 观察 者 偏差 在 许多 情况 下 出 现 。 学 生 们 认为 班级 比 实际 的 要 
大 是 因为 他 们 经 党 上 大 课 ， 飞 机 上 的 乘客 认为 飞机 比 实际 更 满 是 因为 
他 们 第 单 乘坐 满员 的 航班 。 


在 每 种 情况 下 ， 实 际 分 布 中 的 值 都 按照 比例 被 过 采样 了 。 例 如 ， 
在 红线 上 ， 差 距 就 是 两 倍 大 。 


所 以 ， 有 了 列车 间 隅 的 实际 分 布 ， 我 们 可 以 计算 得 到 乘客 看 到 的 
列车 间隔 分 布 。BiasPmf 进行 这 个 计算 : 


def BiasPmf(pmf) : 
new_pmf = pmf.Copy() 


for x, p in pmf.Items(): 
new_pmf .Mult(x, x) 


new_pmf .Normalize() 
return new_pmf 


pmf 是 实际 的 分 布 ，new_pmf 是 偏 分 布 。 在 循环 中 ， 我 们 将 每 个 
值 的 概率 x 乘 以 观测 到 的 似 然 度 ， 其 正比 于 x ， 然 后 我 们 对 结果 归 一 
化 。 


8.3 “等待 时间 


等 待 时 间 称 之 为 y ， 是 乘客 到 达 时 刻 和 下 一 趟 列车 到 达 时 刻 之 间 的 
时 间 。 经 过 时 间 称 之 为 x ， 征 乘客 到 达 时 刻 和 上 一 趟 列车 到 达 时 刻 之 间 
的 时 间 。 这 样 定 义 使 得 zb = x +y。 

给 定 zb 的 分 布 ， 我 们 可 以 计算 出 y 的 分 布 。 我 爷 从 一 个 商 单 的 情 


况 开始 ， 然 后 再 一 般 化 。 假 设 如 前 面 的 例子 ，zb 为 5 分 钟 的 概率 是 
1/3，10 分 钟 的 概率 就 是 2/3。 


如 肝 我 们 在 5 分 钟 间隔 内 随机 到 达 ，y 均匀 分 布 于 0 至 5 分 钟 内 。 如 
果 我 们 在 10 分 钟 的 间隔 到 达 ，y 均匀 分 布 于 0 到 10 分 钟 内 。 所 以 整体 分 
布 是 根据 每 一 个 间隔 的 概率 加 权 了 的 均匀 分 布 的 混合 分 


下 面 的 函数 将 计算 zb 的 分 布 和 y 的 分 布 : 


def PmfofwaitTime(pmf_zb ) : 
metapmf = thinkbayes.Pmf() 
for gap, prob in pmf_zb.Items(): 
uniform = MakeUniformpmf (©, gap) 
metapmf.Set (uniform, prob) 


pmf_y = thinkbayes.MakeMixture(metapmf) 
return pmf_y 


Pmf0OfwaitTime 通过 映射 每 个 均匀 分 布 和 其 概率 来 构建 一 个 元 
Pmf。 然 后 ， 它 使 用 45 页 “混合 分 布 " 中 的 MakeMixture ， 计 算 混 合 分 
布 


PmfOfwaitTime 还 使 用 了 MakeUniformPmf ， 定 义 为 : 


def MakeUniformpmf(low, high): 
pmf = thinkbayes.Pmf() 
for x in MakeRange(low=low, high=high): 
pmf.Set(x, 1) 


pmf .Normalize() 
return pmf 


low 和 high 决定 了 均匀 分 布 的 范围 ( 含 两 端 。 最 后 ， 
MakeUniformPmf 使 用 了 MakeRange ， 此 处 定义 为 : 


def MakeRange(low, high, skip=10): 
return range(low, high+skip, skip) 


MakeRange 定义 了 一 组 等 待 时 间 (以 秒表 示 ) 的 可 能 值 。 默 认 情 
况 下 ， 它 将 范围 划分 为 10 秒 的 时 间 间 隔 。 
为 了 封装 这 些 分 布 的 计算 过 程 ， 我 创建 了 一 个 类 


WaitTimeCalculator: 


class WaitTimeCalculator(object): 


def _ init (self, pmf_z): 
self.pmf_z = pmf_z 
self.pmf_zb = BiasPmf (pmf) 


self.pmf_y = self.PmfOfWwaitTime(self.pmf_zb) 
self.pmf_x = self.pmf_y 


参数 pmf_z 是 z 的 非 偏 差分 布 。pmf_zb 是 乘客 看 到 的 列车 间隔 
的 侦 震 分 布 。pmf_y 是 等 每 时 间 的 分 布 。pmf_x 是 经 过 的 时 间 的 分 
布 ， 它 和 等 得 时 间 分 布 是 一 样 的 。 想 知道 为 什么 ?记得 对 于 一 个 zp 的 
一 个 特定 值 ，y 的 分 布 是 从 0 到 zp 均匀 的 ， 再 考虑 到 x = zp - y， 
因此 x 的 分 布 也 是 从 0 到 zp 均匀 的 。 


图 8-2 显 示 了 z 、zb 和 y 的 分 布 一 一 基于 我 从 Red Line 网 站 上 收集 
的 数据 。 
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图 8-2 z，zb， 乘 客 等 待 时 间 y 的 CDF 


为 了 解释 这 些 分 布 ， 我 从 Pmfs 切 换 到 Cdfs。 大 多 数 人 都 更 熟悉 
Pmfs， 但 我 认为 一 旦 你 习惯 了 ，Cdfs 更 容易 解释 。 如 果 要 在 同一 坐标 
轴 上 绘制 多 个 分 布 ， 就 应 该 用 Cdfs。 


z 的 平均 值 为 7.8 分 钟 。zb 的 平均 值 为 8.8 分 钟 ， 高 出 zZ 约 1396。y 
均值 为 4.4 分 钟 ， 是 zb 均值 的 一 半 。 

顺便 提 一 下 ， 根 据 红 线 调度 站 的 报告 显示 ， 在 高 峰 期 间 列 车 运行 
间隔 是 9 分 钟 /次 。 这 接近 zb 的 平均 值 ， 但 比 z 的 平均 值 高 。 通 过 与 
MBTA 铁 路 局 代表 的 邮件 沟通 ， 报 告 中 的 列车 间隔 时 间 是 有 所 保留 的 ， 
以 提供 一 些 回 旋 余 地 。 


8.4 预测 等 待 时 间 


让 我 们 回 到 初始 问题 ， 设 想 一 下 ， 当 我 到 达 站 台 时 看 到 有 10 人 在 
等 待 。 在 下 一 班车 到 达 前 ， 我 预期 要 等 行 多 长 时 间 呢 ? 


与 往常 一 样 ， 让 我 们 从 这 个 问题 的 最 简单 的 版 本 开始 ， 然 后 找到 
最 终 答案 。 假 设 我 们 给 出 z 的 实际 分 布 ， 而 我 们 知道 乘客 到 达 率 A 是 每 
分 钟 2 名 乘客 。 

在 这 种 情况 下 ， 我 们 可 以 : 

1. 用 z 的 分 布 来 计算 zp 的 先 验 分 布 ， 乘客 所 看 到 的 列车 间隔 分 


2. 然后 ， 我 们 可 以 使 用 乘客 数量 来 估计 x 的 分 布 ， 即 上 一 趟 火车 
离开 后 经 过 的 时 间 。 


3. 最 后 ， 我 们 使 用 关系 y = zp - X 可 得 y 的 分 布 。 


第 一 步 是 创建 一 个 WaitTimeCalculator ， 封 装 zp ，x 和 y 的 
分 布 一 一 在 考虑 乘客 的 数目 之 前 。 


wtc = WaitTimeCalculator (pmf_z) 


pmf_z 是 给 是 的 间 阳 时 间 的 分 布 。 


接 下 来 的 步骤 是 创建 一 个 ELapsedTimeESstimator ， 它 封装 了 x 
的 后 验 分 布 和 y 的 预测 分 布 。 


ete = ElapsedTimeEstimator (wtc， 
lam= 2.0/60, 


num_passengers = 15) 


参数 是 WaitTimeCalculator ， 乘 客 到 达 率 lam (表示 为 乘客 
人 数 / 秒 ) 和 站 台 上 看 到 的 乘客 数量 (假设 是 15) 。 


ElapsedTimeEstimator 的 定义 : 


class ElapsedTimeEstimator(object): 


def _ init (self, wtc, lam, num_passengers): 
self.prior_x = Elapsed(wtc.pmf_x) 


self.post x = self.prior_x.Copy() 
self.post_ x.Update( (lam, num_passengers)) 


self.pmf_y = PredictwaitTime(wtc.pmf_zb, self.post_x) 


prior_x 和 posterior_x 是 经 过 时 间 的 先 验 和 后 验 分 布 。 
pmf_y 是 等 竺 时间 的 预测 分 布 。 


ElapsedTimeEstimator 使 用 Elapsed 和 PredictwaitTime 
， 定 义 如 下 。 


Elapsed 是 表示 X 的 假想 分 布 的 Suite 对 象 。x 的 先 验 分 布 直接 由 
WaitTimeCalculator 得 到 。 然 后， 我 们 使 用 这 些 数据 ， 包 括 到 达 
率 ，lam 和 站 台 上 乘客 的 数量 计算 后 验 分 布 。 


下 面 是 Elapsed 的 定义 : 


class Elapsed(thinkbayes.Suite): 


def Likelihood(self, data, hypo): 
x = hypo 


lam, k = data 
like = thinkbayes.EvalPoissonpmf (lam * x, k) 
return like 


与 往常 一 样 ，Likelihood 接受 一 个 假设 和 数据 ， 并 计算 该 假设 
下 数据 的 似 然 度 。 在 这 个 例子 里 面 hypo 是 上 一 趟 列车 后 经 过 的 时 间 ， 
data 是 一 个 包括 lam 和 乘客 数量 的 元 组 。 


数据 的 似 然 度 是 给 定 到 达 率 lam 下 ，x 时 间 内 k 次 列车 抵达 的 概 
率 。 我 们 利用 一 个 泊 松 分 布 的 PMF 来 计算 它 。 


最 后 ，PredictwaitTime 的 定义 是 : 


def PredictwaitTime(pmf_zb, pmf_x): 
pmf_y = pmf_zb - pmf_x 
RemoveNegatives(pmf_y) 


return pmf_y 


pmf_zb 是 列车 间隔 的 分 布 情况 ，pmf_x 征 经 过 时 间 的 分 布 ( 根 
据 对 乘客 数量 的 观察 得 到 ) 。 由 于 y = zb - x ， 我 们 可 以 计算 : 


pmf_y = pmf_zb - pmf_x 


减法 运算 符 调用 Pmf. sub  ， 其 中 列举 了 所 有 zb 和 x 对 ， 计 
算 其 差 ， 将 结果 加 总 到 pmf_y 。 


由 此 产生 的 Pmf 包 括 一 些 显然 不 可 能 的 负 值 。 例 如 ， 如 采 你 是 在 5 
分 钟 的 间隔 期 间 到 达 的 ， 你 的 等 待 时 间 不 可 能 超过 5 分 钟 。 
RemoveNegatives 会 移 除 这 些 不 可 能 的 值 并 重新 归 一 化 。 


def RemoveNegatives(pmf): 
for val in pmf .Values(): 
if val < 0: 


pmf .Remove (val) 
pmf .Normalize() 


图 8-3 显 示 了 结 采 。x 的 先 验 分 布 和 y 一 样 。x 的 后 验 分 布 表 明 ， 
看 到 站 人 台 上 的 15 名 乘客 后 ， 考 虑 到 目 上 一 趟 车 过 后 的 时 间 大 概 是 5 一 10 
分 钟 ， 所 以 我 们 预计 下 一 班 列车 会 在 5 分 钟 内 到 达 ， 置 信和 度 为 80% 。 
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图 8-3 ”x 的 先 验 分 布 和 后 验 分 布 ， 以 及 预测 的 y 值 


8.5 ”估计 到 达 率 


到 目前 为 止 的 分 析 基 于 我 们 已 知 (1) 列车 间隔 的 分 布 (2) 乘客 
到 达 率 的 假设 。 现 在 ， 我 们 已 经 准备 好 开始 处 理 第 二 个 假设 。 


假设 你 刚 搬 到 波士顿 ， 所 以 你 不 了 解 红线 地 铁 的 乘客 到 达 率 。 利 
用 几 天 上 下 班 时 间 ， 殊 可 以 做 至 少 是 可 量化 的 猜测 。 只 要 青花 一 点 心 
思 ， 你 甚至 可 以 定量 的 估计 4。 每 一 天 你 到 达 站 台 时 ， 你 应 该 注意 时 间 
和 到 达 乘 客 的 数量 〈 如 果 站 人 台 太 大 ， 你 可 以 选择 一 个 样本 区 域 ) 。 然 
后 记录 目 己 的 等 待 时 间 ， 以 及 在 你 等 竺 期间 新 到 站 的 乘客 数量 。 


5 天 后 ， 你 可 能 得 到 这 样 的 数据 : 


其 中 k1 是 当 你 到 达 时 ， 正 在 等 候 的 乘客 数 ，y 是 你 的 等 得 时 间 ， 
k2 为 等 行 期 间 到 达 的 乘客 数量 。 


一 个 多 星期 的 记录 中 ， 你 等 竺 时 间 二 18 分 钟 ， 看 到 36 名 乘客 到 


达 ， 因 此 可 以 估计 ， 到 达 率 是 每 分 钟 2 名 乘客 。 就 实验 来 说 ， 这 一 估计 
足够 了 ， 但 为 了 完整 起 见 ， 我 会 计算 4 的 后 验 分 布 ， 然 后 演示 怎么 样 在 
后 面 的 分 析 中 利用 该 分 布 。 


ArrivalRate 是 个 代表 和 假设 的 Suite 对 象 。 与 往常 一 样 ， 
Likelihood 接收 假设 和 数据 ， 计 算出 假设 下 的 数据 似 然 度 。 


在 例子 里 面 ， 假 设 是 4 的 取 值 。 数 据 是 y 、k 数据 对 ， 其 中 y 是 一 
个 等 待 时 间 ，k 是 到 达 的 乘客 人 数 。 


class ArrivalRate(thinkbayes.Suite): 


def Likelihood(self, data, hypo): 
lam = hypo 


y, k = data 
like = thinkbayes.EvalPoissonpmf (lam * y, k) 
return like 


这 一 Likelihood 看 起 来 很 熟悉 ， 它 和 第 75 页 “预测 等 得 时 间 ” 里 
的 Elapsed .Likelihood 几乎 一 模 一 样 。 区 别 在 于 
Elapsed.Likelihood 里 假设 是 经 过 的 时 间 x ， 在 
ArrivalRate.Likelihood 里 假设 是 lam 到 达 率 。 但 两 个 例子 里 
面 ， 似 然 度 都 是 在 已 知 lam 的 条 件 下 ， 一 段 时 间 里 过 到 k 个 到 达 〈 乘 
客 ) 的 可 能 性 。 


ArrivalRateEstimator 封装 估算 1 的 过 程 。 人 参数 
passenger_data ， 是 一 个 包括 k1 ，y ，k2 元 素 的 元 组 ， 具 体 数据 
如 前 文 所 示 。 


class ArrivalRateEstimator(object): 


def _ init (self, passenger_data): 
low, high = 0, 5 
n = 51 
hypos = numpy.linspace(low, high, n) / 60 


self.prior_lam = ArrivalRate(hypos) 

self.post_lam = self.prior_lam.Copy() 

for ki, y, k2 in passenger_data: 
self.post_lam.Update((y, Kk2)) 


__init__ 构建 假设 ， 这 是 lam 假设 值 的 序列 ， 然 后 生成 先 验 分 
布 bprior_lam 。for 循环 以 数据 更 新 前 验 概 率 ， 产 生 后 验 分 布 


post_lam °。 
图 8-4 给 出 了 先 验 和 后 验 分 布 。 正 如 预期 的 那样 ， 均 值 和 中 位 值 都 
多 有 


下 观 察 得 到 的 值 附近 ， 每 分 钟 2 名 乘客 。 但 我 们 不 确定 后 验 分 布 的 旋转 
和 是否 是 由 于 4 基于 小 样本 的 原因 。 


2 3 
乘客 到 达 率 (乘客 数 / 分钟) 


图 8-4 ”基于 5 天 乘客 数据 的 lam 的 前 验 和 后 验 分 布 


8.6 ”消除 不 确定 性 


无 


论 何 时 ， 分 析 中 总 有 一 些 输入 量 市 来 的 不 确定 性 ， 我 们 可 以 通 


过 下 面 这 个 步骤 将 这 一 因素 考虑 进来 : 


1. 


2. 


3 


实现 基于 不 确定 参数 的 确定 值 分 析 〈 在 本 例 中 是 1 ) 。 
计算 不 确定 参数 的 分 布 。 
对 参数 的 每 个 值 进行 分 析 ， 并 生成 一 组 预测 分 布 。 


.使 用 参数 分 布 所 对 应 的 权 值 计算 出 预测 分 布 的 混合 分 布 。 


我 们 已 经 完成 了 步骤 1 和 步骤 2。 我 写 了 一 个 类 
WaitMixtureEstimator 处 理 步骤 3 和 步骤 4。 


class WaitMixtureEstimator(object): 


def _ init (self, wtc, are, num_passengers=15): 
self.metapmf = thinkbayes.Pmf() 


for lam, prob in sorted(are.post_lam.Items()): 
ete = ElapsedTimeEstimator(wtc, lam, num_passengers) 
self.metapmf .Set(ete.pmf_y, prob) 


self.mixture = thinkbayes.MakeMixture(self.metapmf) 


wtc 是 包含 zb 分 布 的 WaitTimeCalculator 实例 。are 则 是 包 
含 了 lam 分 布 的 ArrivalTimeEstimator 实例 。 第 一 行 创建 了 一 个 
元 Pmf 来 映射 y 的 可 能 分 布 和 其 概率 。 对 于 1Lanm 的 每 一 个 值 ， 我 们 用 
ElapsedTimeEstimator 计算 y 的 相应 分 布 ， 并 将 其 存储 在 元 Pmf 。 
然后 我 们 用 MakeMixture 来 计算 混合 分 


图 8-5 显 示 了 结 采 。 青 景 中 的 阴影 线 表 示 了 y 对 应 于 lam 每 个 值 的 
分 布 ， 细 线 表示 似 然 度 。 粗 线 是 这 些 分 布 的 混合 分 


0 2 


4 6 

等 待 时间 (分 钟 ) 

图 8-5 ”对 应 了 lam 所 有 可 能 值 的 y 的 预测 分 布 
在 这 种 情况 下 ， 我 们 可 以 用 lam 的 单 点 估计 得 到 一 个 非常 类 似 的 

结 采 。 因 此 束 实 用 而 言 ， 将 估计 的 不 确定 性 包含 进来 不 古 必需 的 。 


在 一 般 情 况 下 ， 如 果 系统 响应 是 非 线 性 的 ， 那 么 包括 可 变性 就 很 
重要 了 。 此 时 ， 输 入 的 微小 变化 都 会 引起 输出 的 较 大 变化 ， 而 本 例 
中 ，lanm 的 后 验 变 化 很 小 ， 对 于 小 的 扰动 ， 系 统 的 啊 应 近似 线性 。 


8.7 ”决策 分 析 


现在 ， 我 们 可 以 使 用 站 台 上 乘客 人 数 预 测 等 每 时 间 的 分 布 了 。 让 
2 问题 的 第 二 部 分 : 我 应 该 在 何 时 放弃 等 待 列车 去 叫 一 辆 出 租 
的 
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请 记 住 ， 在 初始 的 场景 中 ， 我 会 去 南 站 乘坐 通勤 铁路 。 假 设 我 下 
班 足够 早 ， 所 以 足以 等 待 15 分 钟 在 南 站 乘 车 。 


在 这 种 情况 下 ， 我 想 知道 的 是 “y 超过 15 分 钟 * 作 为 
num_passengers 的 函数 的 概率 。 用 “预测 等 等 时 间 ” 里 的 分 析 方 法 这 
很 容易 。 在 num_passengers 的 区 间 上 运行 这 个 分 析 。 


但 有 一 个 问题 。 该 分 析 对 长 时 间 延 误 的 频次 敏感 ， 而 由 于 长 时 间 
延误 罕见 ， 因 此 很 难 估计 其 时 间 延 误 发 生 频 次 。 


我 只 有 一 周 的 数据 ， 观 察 到 的 最 长 延误 是 15 分 钟 。 所 以 我 无 法 准 
确信 计 长 时 间 延 误 的 频次 。 不 过 我 还 是 可 以 使 用 以 前 的 观察 来 进行 至 
少 征 粗略 的 估计 。 


在 一 年 时 间 乘 坐 红线 的 过 程 中 ， 我 看 到 了 由 于 信号 问题 、 停 电 、 
其 他 车 站 的 警察 行动 造成 的 3 个 长 时 间 延 识 ， 所 以 我 们 计 大 约 每 年 有 3 
次 长 时 间 延 误 。 


但 请 记 住 我 的 看 法 是 仿 颇 的 。 我 更 倾 辐 于 观察 长 时 间 延 误 是 因为 
它们 影响 了 大 批 乘客 。 所 以 ， 我 们 应 该 把 我 的 意见 作为 zb 的 样本 ， 而 
不 是 zZ 的 。 下 面 是 我 们 怎样 做 到 这 一 点 。 


在 乘坐 地 铁通 勤 那 一 年 ， 我 乘坐 红线 约 220 次 。 所 以 我 用 观察 到 的 
间隔 时 间 gap_times 产生 了 220 个 列车 间隔 的 样本 ， 并 计算 它们 的 
Pmf: 


n = 220 
cdf_z = thinkbayes.MakeCdfFromList (gap_times ) 
sample_z = cdf_z.Sample (n) 


pmf_z = thinkbayes.MakePmfFromList (sample_z) 


接 下 来 ， 我 偏 置 pmf_z 得 到 zb 的 分 布 情况 ， 抽 取样 本 ， 然 后 添加 
了 30 分 钟 、40 分 钟 和 50 分 钟 的 三 次 延误 (以 秒表 示 ) : 


cdf_zp = BiasPmf (pmf_z ). MakeCdf() 
sample_zb = cdf_zp.Sample(n)+ [ 1800 , 2400 ， 3000] 


cdf.Sample 比 Pmf.Samp1le 更 高 效 ， 因 而 一 般 会 更 快 地 将 Pmf 
转换 成 Cdf 。 


接 下 来 ， 我 以 zb 的 样本 用 KDE 来 估计 Pdf， 然 后 将 Pdf 转 换 为 
Pmf: 


pdf_zb = thinkbayes,.EstimatedPdf (sample_zb) 
xs = MakeRange(low= 60) 


pmf_zb = pdf_zb.MakePmf (xs) 


最 后 ， 我 反 偶 置 zb 的 分 布 来 获得 z 的 分 布 ， 用 z 创建 


WaitTimeCalculator: 


pmf_z = UnbiasPmf (pmf_zb) 
wtc = WaitTimeCalculator (pmf_z) 


这 个 过 程 是 复杂 的 ， 但 所 有 的 步 又 都 旦 我 们 所 见 过 的 操作 。 现 在 
我 们 准备 进行 计算 一 个 长 时 间 等 待 的 概率 。 


def ProbLongwait(num_passengers，minutes ) : 
ete = ElapsedTimeEstimator(wtc, lam, num_passengers) 
cdf_y = ete.pmf_y.MakeCdf() 


prob = 1 - cdf_y.Prob(minutes * 60) 


根据 平台 上 的 乘客 人 数 ，ProbLongwait 用 
ElapsedTimeEstimator 提取 等 待 时 间 的 分 布 ， 并 计算 等 待 时 间 超 
过 minutes 的 概率 。 


图 8-6 显 示 了 结 采 。 当 乘客 的 数目 小 于 20， 我 们 推断 系统 运行 正 
党， 此 时 长 时 间 延 迟 的 概率 很 小 。 如 果 有 30 名 乘客 ， 我 们 估计 目 上 趟 
火车 已 经 过 了 15 分 钟 ; 这 比 正 利 延 迟 时间 长 ， 因 此 我 们 推 煌 出 了 某 些 
问题 ， 并 预期 会 有 更 长 的 延迟 。 


0.12 


0.10 


9 
© 
C0 


0.06 


P 值 (等 待 时 间 y 大 于 15 分 钟 的 概率 值 ) 
© 
© 
人 


C3 
OO 
NL 


0 5 10 15 20 25 30 35 
乘客 人 数 


图 8-6 ”以 站 台 上 乘客 人 数 为 变量 的 等 待 时 间 超 过 15 分 钟 的 概率 函数 


如 有 果 能 接受 有 10% 的 概率 会 错过 南 站 列车 ， 又 当 有 不 到 30 名 乘客 的 
人 
从 人 o 


或 者 ， 进 一 步 分 机 ， 我 们 可 以 量化 错过 南 站 列车 的 成 本 和 乘坐 出 
租车 的 费用 ， 然 后 选择 最 小 化 预期 成 本 的 靖 值 。 


8.8 讨论 


分 析 到 目前 为 止 一 直 基 于 一 个 假设 ， 即 乘客 的 到 达 率 每 天 是 相同 
的 ， 对 于 高 峰 时 段 的 通勤 列车 ， 这 可 能 不 是 一 个 坏 假 设 ， 但 也 有 一 些 
明显 的 例外 。 例 如 ， 如 采 附 近 有 一 个 特殊 的 事件 ， 大 量 的 乘客 可 能 反 
时 到 达 。 在 这 种 情况 下 ，1lam 的 估计 就 会 太 低 ， 所 以 x 和 y 的 估计 会 太 


[可 


如 琳 特 殊 事 件 和 重大 延误 一 样 常见 ， 将 它们 包括 进 模型 束 很 重 
二 I 以 通过 扩展 lam 的 分 布 以 包括 进 偶 尔 出 现 的 较 大 值 来 实现 
"ye 


我 们 是 从 假设 已 知 z 的 分 布 开始 的 。 为 一 个 办 法 古 乘客 可 以 估算 z 
， 但 这 也 不 容易 。 作 为 乘客 ， 你 只 能 观察 到 目 己 的 等 待 时 间 y 。 除非 你 
的 第 一 辆 列车 ， 等 第 二 辆 到 站 ， 人 否则 你 就 不 能 直接 观测 到 列 
J 有 P 员 Z 。 


不 过 ， 我 们 可 以 做 出 zb 的 一 些 推论 。 如 果 我 们 注意 自己 抵达 车 站 
时 的 乘客 人 数 ， 我 们 可 以 估算 和 目 上 一 趟 车 后 所 过 去 的 时 间 x ， 然 后 观察 
y。 如果 我 们 把 x 的 后 验 分 布 与 观测 到 的 y 相 加 ， 束 得 到 了 表示 zb 观 
测 值 的 后 验 信念 的 分 布 。 


我 们 可 以 利用 这 个 分 布 来 修正 我 们 对 zb 的 分 布 信和 度 。 最 终 可 以 通 
过 反 向 计算 BiasPmf 从 zb 得 到 z 的 分 布 。 


我 留 下 一 个 分 析 练 习 给 读者 。 建 议 : 阅读 第 15 草 。 你 可 以 在 
http:/thinkbayes.com/redline.py 找到 解法 的 梗概 。 欲 了 解 更 多 信息 ， 请 
参见 前 言 的 “代码 指南 ”。 


8.9 ”练习 
练习 8-1。 
这 一 练习 来 自 麦 凯 《 人 和 信息论、 推理 和 学 习 算法 》 一 书 : 
有 不 稳定 的 粒子 从 一 个 源 上 射出 ， 并 于 距离 源 x 的 位 置 上 衰 
减 ，x 是 含有 参数 ) 的 指数 概率 分 布 。 豪 变 只 有 在 x = 1 厘米 到 x = 
20 厘 米 的 窗口 内 才能 被 观察 到 。 如 果 在 距离 1.5 厘 米 、2 厘 米 、3 厘 


人 ` 4 厘米 、5 厘 米 、12 厘 米 处 观测 到 NN 个 衰变 ，A 的 后 验 分 布 是 什 
人 A? 


你 可 以 从 http:/Nthinkbayes.com/decay.py 下 载 这 个 练习 的 解法 。 


第 9 章 ”二 维 问题 
9.1 彩 弹 


彩 弹 射击 运动 中 ， 参 赛 队 伍 用 彩 弹 互 相 射 击 ， 用 涂料 填充 的 彩 弹 
命中 时 会 破 雄 。 这 一 运动 通常 在 一 个 安置 了 障碍 和 其 他 可 作为 掩护 物 
体 的 区 域 中 进行 。 


假设 你 在 视 30 英 尺 长 50 英 尺 的 室内 场地 玩 彩 弹 ， 靠 近 一 面 30 
el 怀疑 你 的 对 手 之 一 到 了 墙角 附近 。 沿 着 墙壁 ， 你 看 
到 几 个 有 相同 颜色 的 彩 弹 痕迹 ， 可 以 认为 你 的 对 手 刚 刚 开 火 了 。 


彩 弹 痕迹 是 在 沿 着 左下 角 墙 角 15 英 尺 、16 英 尺 、18 英 尺 和 21 英 尺 
处 。 根 据 这 些 数据 ， 你 认为 你 的 对 手 租 藏 的 位 置 在 哪里 ? 


图 9-1 显 示 了 场地 的 平面 图 。 以 房间 的 左下 角 为 原点 。 我 以 a 和 
B 作为 射击 方 的 未 知 位 置 坐标 ， 或 称 为 alpha 和 beta 。 彩 弹痕 迹 位 
置 被 标记 为 X。 对 手 射击 的 角度 为 6 或 theta 。 


图 9-1 彩 弹 问题 布局 图 


彩 弹 问题 是 贝 叶 斯 分 析 案 例 中 第 见 的 灯塔 问题 的 一 个 修改 版 
本 ， 我 的 标 往 依据 了 DS Sv 在 《数据 分 析 : 贝 叶 斯 教程 (第 二 
版 ) 》 (牛津 出 版 社 ，2006 年 ) 书 中 对 于 该 问题 的 介绍 


你 可 以 从 http:Nthinkbayes.com/paintball.py 下 载 本 章 代 码 。 更 多 信 
恳请 参见 前 言 的 “代码 指南 ”。 


9.2 ”Suite 对 象 


首先 ， 我 们 需要 一 个 Suite 对 象 来 表示 一 组 有 关 比 赛 对 手 位 置 的 假 
设 。 每 个 假设 是 一 对 坐标 : (alpha ，beta )。 


下 面 是 彩 弹 Suite 对 象 的 定义 : 


class Paintball(thinkbayes.Suite, thinkbayes.Joint): 


def _ init (self, alphas, betas, locations): 
self.locations = locations 
pairs = [(alpha, beta) 
for alpha in alphas 
for beta in betas] 
thinkbayes.Suite. init (self, pairs) 


Paintball 继承 自我 们 见 过 的 Suite 对 象 ， 至 于 Joint 我 会 马 
上 开始 介绍 。 


alphas 是 alpha 所 有 可 能 值 的 列表 ，betas 是 beta 值 的 列 
表 。pairs 是 所 有 的 (alpha ，bata ) 对 的 列表 。locations 是 党 
省 的 可 能 位 置 列 表 ， 它 被 存储 在 LikelLihood 中 以 便 后 面 使 用 。 


房间 为 30 英 矿 宽 ，50 英 斥 长 ， 下 面 是 一 个 创建 该 Suite 对 象 的 代 


人 码 


alphas = range(0, 31) 
betas = range(1, 51) 
locations = range(0, 31) 


suite = Paintball(alphas, betas, locations) 


这 个 先 验 分 布 假设 房间 里 的 所 有 位 曹 部 等 可 能 。 已 知 房间 的 地 图 
后 ， 我 们 可 远 择 一 个 更 评 细 的 先 验 分 布 ， 但 我 们 先 从 简单 情况 的 开 


始 。 


9.3 三 角 学 


现在 我 们 需要 一 个 似 然 画 数 ， 这 意味 着 我 们 必须 弄 清楚 在 已 知 对 
手 的 位 置 后 ， 他 击 中 任意 一 个 沿 着 墙壁 的 位 置 点 的 似 然 度 。 


作为 一 简化 模型 ， 假 设 对 手 像 一 个 旋转 着 的 炮塔 ， 向 任意 方向 
员 击 的 可 能 性 相同 。 在 这 种 情况 下 ， 他 最 有 可 能 打 中 墙壁 的 alpha 位 
置 ， 击 中 远离 alpha 的 位 置 可 能 性 较 小 。 


利用 一 些 三 角 学 知识 ， 我 们 可 以 计算 击 中 任意 沿 着 墙壁 点 上 概 
率 。 试 想 一 下 ， 射 手 以 角度 6 射击 ， 彩 弹 会 击 中 墙 上 的 位 置 x ， 其 中 


TT— Qa= Stang 


因此 ， 已 知 场 上 某 个 位 置 ， 我 们 可 以 求 出 9。 
取 第 一 方程 相对 于 6 的 导数 


dr 3 


解 这 个 方程 得 到 6 值 


dg cos28 
这 个 导数 我 称 之 为 “扫射 速度 ”， 这 是 目标 随 着 9 增加 而 沿 着 墙 运 动 
1 (一 个 映射 ) 。 击 中 墙 上 一 个 给 定 的 点 的 概率 和 扫射 速 度 负 相 


如 果 我 们 知道 射手 的 坐标 和 墙壁 上 的 一 个 位 置 ， 我 们 束 可 以 计算 
出 扫 映 速 度 : 
def StrafingSpeed(alpha, beta, x): 


theta = math.atan2(x - alpha, beta) 
Speed = beta / math,.cos(theta)**2 


return speed 


alpha 和 beta 是 射手 的 坐标 ，x 是 一 个 彩 弹 的 位 置 。 结 果 是 x 相 
对 于 theta 的 导数 。 


现在 ， 我 们 可 以 计算 出 表示 击 中 任何 位 置 概 率 的 Pmf 了 。 
MakeLocationPmf 接收 的 参数 是 射手 的 坐标 alp1a 和 beta ; 彩 弹 
命中 的 位 置 Locations (一 个 Locations 可 能 值 的 列表 ) 。 


def MakeLocationpmf (alpha, beta, locations): 
pmf = thinkbayes.Pmf() 
for x in locations: 
prob = 1.0 / StrafingSpeed(alpha, beta, x) 


pmf .Set(x, prob) 
pmf .Normalize() 
return pmf 


MakeLocationPmf 计算 出 了 击 中 墙 上 每 个 位 置 的 概率 ， 其 反比 
于 扫射 速度 。 其 结果 是 位 置 的 Pmf 和 它们 的 概率 。 


图 9-2 显 示 了 用 alpha=19 和 一 系列 的 beta 值 计算 的 Pmf 值 。 对 于 测 
试 的 所 有 值 ， 最 有 可 能 的 位 置 为 x = 10 ; 随 着 beta 的 增加 ，Pmf 范 
转世 会 扩大 
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图 9-2 ”用 alpha=10 和 一 系列 的 beta 值 计算 的 PMF 值 


9.4 似 然 度 


现在 我 们 需要 一 个 似 然 函 数 。 在 给 定 对 手 的 坐标 的 情况 下 ， 我 们 
可 以 使 用 MakeLocationPmf 计算 任意 x 的 似 然 度 。 


def Likelihood(self, data, hypo): 
alpha, beta = hypo 
x = data 
pmf = MakeLocationpmf(alpha, beta, self.locations) 


like = pmf.Prob(x) 
return like 


i 再 强调 下 ，alpha 和 beta 年 射手 的 假想 坐标 ，x 是 彩 弹 命中 痕迹 
9 位置 。 


pmf 包含 了 给 出 射手 的 坐标 时 墙 上 每 个 位 置 点 的 概率 。 从 Pmf 我 们 
可 以 得 到 观察 到 的 彩 弹 位 置 的 概率 。 


大 功 告 成 。 要 更 新 Suite 对 象 ， 我 们 可 以 使 用 继承 目 Suite 的 
UpdateSet 。 


suite,UpdateSet ([ 15 ，16 , 18 , 21 ]) 


其 结果 是 一 个 映射 每 个 (alpha ，beta ) 到 一 个 后 验 概率 的 分 
i 


9.5 ”联合 分 布 


当 分 布 的 每 个 值 都 是 一 个 元 组 变量 时 ， 被 称 为 联合 分 布 。 它 代表 
了 多 个 变量 的 分 布 ， 这 正 是 “联合 ”的 含义 。 联 合 分 布 包 含 了 变量 的 分 
布 以 及 变量 间 的 关系 。 

给 定 一 个 联合 分 布 ， 我 们 可 以 计算 每 个 变量 的 独立 分 布 ， 这 被 称 
为 边缘 分 布 (marginal distribution) 。 


thinkbayes .Joint 提供 了 计算 边缘 分 布 的 方法 : 


# class Joint: 


def Marginal(self, 1i): 
pmf = Pmf() 


for vs, prob in self.Items(): 
pmf.Incr(vs[i], prob) 
return pmf 


i 是 我 们 想 要 的 变量 的 索引 ， 在 该 示例 中 i = 0 表示 alpha 分 
布 , i = 1 表示 beta 分布 。 


下 面 是 提取 边缘 分 布 的 代码 : 


marginal alpha = suite.Marginal (0) 


marginal_beta = suite.Marginal (1) 


图 9-3 显 示 了 结果 (转换 为 CDFs) 。 对 于 alpha ， 中 值 是 18， 跌 
在 观察 到 的 彩 弹 数据 集 的 中 心 附 近 。 对 于 beta ， 最 可 能 的 值 靠 近 增 辟 
(<10) ， 而 10 英 尺 外 的 分 布 几 乎 是 均匀 的 ， 这 恰好 表明 了 在 这 些 可 能 
位 置 间 的 数据 非常 不 起 眼 ( 即 可 能 性 不 高 )。 


概率 值 
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图 9-3 已 知 数 据 后 ，alpha 和 beta 的 后 验 CDF 曲 线 


给 定 的 后 验 的 边 绿 ， 我 们 可 以 分 别 为 每 个 坐标 计算 荀 信 区 间 |: 


print 'alpha CI ' , marginal alpha.CredibleInterval(50) 
print 'beta CI ' , marginal_beta.CredibleInterval(50) 


对 于 alpha ，50% 置 信 区 间 为 (14，21) ，beta 是 (5，31) 。 所 


以 数据 提供 的 证 据 表 明 射 手 处 在 房间 内 的 近 侧 。 但 这 还 不 是 强 证 据 ， 
因为 90% 置 信 区 间 已 经 覆盖 了 房间 的 大 部 分 区 域 ! 


9.6 ”条 件 分 布 


边际 分 布 表 示 了 有 关 变 量 各 自 的 信息 ， 但 它 没 有 捕捉 变量 之 间 的 
依赖 关系 。 


可 视 化 其 依赖 关系 的 一 种 方法 是 通过 计算 条 件 分 布 。 
thinkbayes .Joint 提供 了 一 个 方法 : 


def Conditional(self, i, j, val): 
pmf = Pmf() 
for vs, prob in self.Items(): 
if vs[j] != val: continue 
pmf .Incr(vs[i], prob) 


pmf .Normalize() 
return pmf 


同样 的 , 工 是 我 们 想 要 的 变量 的 索引 ，j 是 调 广 变量 的 索引 ，val 
是 有 条 件 值 。 


其 结 采 是 第 工 个 变量 在 第 了 个 变量 值 是 val 这 一 条 件 下 的 下 的 


例如 ， 下 面 的 代码 计算 alpha 在 一 定 beta 范围 下 的 分 布 : 


betas = [10, 20, 40] 


for beta in betas: 


cond = suite.Conditional(0, 1, beta) 


图 9-4 显 示 了 结 末 ， 我 们 可 以 将 其 完整 地 表述 为 “条 件 边 缘 的 后 验 分 


布 ” (posterior conditional marginal distribution) 。 


图 9-4 ”以 数 个 beta 数 据 为 条 件 的 ，alpha 的 后 验 概率 分 布 曲线 


如 有 果 该 变量 是 独立 的 ， 条 件 分 布 束 会 相同 。 但 因为 它们 (条 件 分 
布 ) 不 同 ， 我 们 因此 可 以 说 变量 是 相关 的 。 


例如 ， 如 果 已 知 pbeta = 10 ，alpha 的 条 件 分 布 范 围 就 相当 狭 
罕 。 而 对 于 较 大 的 beta 值 ，alpha 的 分 布 范围 承 较 宽 。 


9.7 置信 区 间 


另 一 种 可 视 化 后 验 联 合 分 布 的 方式 是 计算 置信 区 间 。 当 我 们 在 第 
23 页 讨论 “置信 区 间 ” 的 时 候 ， 我 略 过 了 一 个 微妙 信息 点 ， 对 于 给 定 的 
分 布 ， 有 很 多 具备 相同 置信 度 的 区 间 。 例 如 ， 如 果 你 想 有 一 个 50% 的 可 
信 区 间 ， 你 可 以 选择 任意 一 组 值 的 素 加 起 来 是 50% 的 概率 值 。 


当 该 值 是 一 维 鸭 ， 最 第 见 的 是 选择 中 心 的 置信 区 间 ， 例 如 ， 中 央 
50% 置 信 区 间 包 含 了 第 25 和 第 75 百 分 位 数 的 所 有 值 。 


在 多 个 维度 情况 下 ， 什 么 是 正确 的 置信 区 间 并 非 显 而 易 见 。 最 好 
的 选择 可 能 要 取决 于 上 下 文 ， 但 一 个 常用 的 选择 是 最 大 似 然 置信 区 
- 其 中 包含 了 累加 为 50% 的 最 有 可 能 的 值 (或 一 些 其 他 百分比 


thinkbayes .Joint 提供 了 计算 最 大 似 然 置信 区 间 的 方法 : 


# class Joint: 


def MaxLikeInterval(self, percentage=90): 
interval = [] 
total = 0 


t = [(prob, val) for val, prob in self.Items()] 
t.sort(reverse=True) 


for prob, val in t: 
interval.append(val) 
total += prob 
If total >= percentage/100.0: 
break 


return interval 


第 一 步 是 在 Suite 中 创建 一 个 包含 所 有 值 的 列表 ， 以 概率 值 递减 顺 
序 存储 。 接 着 遍历 列表 ， 从 高 到 低 累 加 概率 直到 超过 预 设 百 分 比 
percentage 。 这 一 步 的 结果 是 从 Suite 对 象 得 到 的 值 列表 。 请 注意 ， 
这 组 值 不 一 定 是 连续 的 。 


要 可 视 化 这 些 区 间 ， 我 写 了 一 个 函数 ， 根 据 每 个 区 间 的 出 现 次 数 
为 每 个 概率 值 “着 色 ”: 


def MakeCrediblePlot(suite): 
d = dict((pair, ©0) for pair in Suite,Values( ) ) 


percentages = [75, 50, 25] 
for p in percentages: 
interval = suite.MaxLikeInterval(p) 
for pair in interval: 
d[pair] += 1 


d 是 一 个 在 Suite 中 将 每 个 概率 值 和 其 所 在 区 间 次 数 进 行 映射 的 字 
典 。 循 环 部 分 的 代码 进行 这 些 区 间 计 算 并 修改 d 。 


图 9-5 显 示 了 结 采 。259% 置 信 区 间 为 靠近 霸 沿 的 最 暗 区 域 。 对 于 更 
大 的 百分比 ， 置 信 区 间 更 大 并 且 偏向 房间 的 右 侧 。 
50 


40 
30 75 
过 
3 
o 
20 
10 
0 
0 5 10 15 20 25 30 
alpha 值 


图 9-5 ”对 手 坐 标的 置信 区 间 


9.8 讨论 


本 对 的 内 容 说 明了 前 几 间 里 提 到 的 贝 叶 斯 框架 可 扩展 到 人 处理 二 维 
参数 空间 。 唯 一 的 区 别 在 于 ， 每 个 假设 由 参数 元 组 来 表示 。 


我 还 介绍 了 Joint 对 象 ， 这 是 一 个 提供 了 联合 分 布 计算 方 法 的 父 
类 ， 可 用 于 计算 Marginal ，Conditional ， 还 有 
MakeLikeInterval 等 联合 分 布 。 以 面向 对 象 的 概念 来 说 ，Joint 
对 象 是 一 个 混入 对 象 〈 见 http://en.wikipedia.org/wiki/Mixin) 。 


本 章 中 出 现 了 很 多 新 的 词汇 ， 让 我 们 来 回顾 下 。 
联合 分 布 : 


表示 在 多 维 空间 中 所 有 可 能 值 和 它们 的 概率 。 本 章 中 的 例子 是 由 
坐标 alpha 和 beta 构成 的 二 维 空间 。 联 合 分 布 代表 了 每 一 个 
(alpha ，beta ) 对 的 概率 。 


边 毕 分布: 


联合 分 布 中 ， 某 个 参数 在 其 他 参数 未 知情 况 下 的 分 布 ， 例 如 图 9-3 
展示 的 各 自 独立 的 alpha 分 布 和 beta 分 布 。 


条 件 分 布 : 


在 一 个 联合 分 布 中 。 给 定 一 个 或 者 多 个 其 他 参数 条 件 的 情况 下 ， 
某 个 参数 的 分 布 。 例 如 ， 图 9-4 显 示 了 alpha 在 beta 的 几 个 不 同 值 下 
i 


已 知 联 合 分 布 ， 可 以 计算 出 边际 和 条 件 分 布 。 有 了 足够 的 条 件 分 
布 信息 ， 可 以 至 少 是 近似 地 重建 联合 分 布 。 但 已 知 边际 分 布 不 能 重新 
建立 联合 分 布 ， 因 为 已 经 丢失 了 变量 之 间 相 关 性 的 信息 。 


如 采 对 两 个 参数 都 有 n 个 可 能 的 值 ， 在 联合 分 布 中 的 大 多 数 操作 需 
要 的 是 与 n “成 正比 的 运算 时 间 。 如 果 还 有 参数 d ， 运 行 时 间 正 比 于 m 
， 而 且 随 奢 维 数 的 增加 ， 迅 速 地 变 得 不 实用 。 


如 果 你 要 在 合理 时 间 内 处 理 上 百 万 个 假设 值 ， 这 些 情况 是 可 行 
的 : 2 个 维度 ， 每 个 参数 有 1000 个 可 能 值 ， 或 3 个 维度 ， 每 个 参数 100 个 
可 能 值 ， 或 6 个 维度 ， 每 个 参数 10 个 值 。 


如 果 需 要 处 理 更 多 维度 ， 或 每 个 维度 上 更 多 值 ， 可 以 试 试 其 他 的 
优化 。 我 在 第 15 章 提供 了 一 个 例子 。 


你 可 以 从 http:Mhninkbayes.comypaintball.py 下 载 代码 。 更 多 信息 ， 
请 参见 前 言 的 “代码 指南 ”。 
9.9 ”练习 

练习 9-1。 


在 我 们 的 价 单 模型 中 ， 对 于 从 任何 方 同 映 击 都 有 同等 的 可 能 。 作 
为 练习 ， 我 们 来 考虑 改进 这 一 模型 。 


本 章 的 分 析 表 明 射 手 最 有 可 能 对 载 的 近 端 射击 。 但 在 现实 中 ， 如 
果 对 手 靠 近 墙 壁 ， 因 为 他 不 可 能 看 到 目 己 和 墙壁 之 间 的 目标 ， 所 以 也 
不 大 可 能 射击 到 场 上 。 


设计 一 个 改进 的 模型 ， 将 这 种 行为 考虑 在 内 。 壬 试 找到 一 种 更 真 
实 的 模型 ， 但 不 要 太 复杂 。 


第 10 章 ” 贝 叶 斯 近似 计算 
10.1 变异 性 假说 


我 对 上 古怪 科学 有 些 偏爱 。 最 近 我 访问 了 Norumbega 塔 ， 这 是 一 个 埃 
本 . 诸 顿 . 霍 斯 福 德 奇怪 理论 的 不 朽 纪念 碑 ， 它 是 双 效 发 酵 粉 和 厦 品 史 的 
发 明 者 。 不 过 这 不 是 本 章 要 讨论 的 。 


本 半 是 关于 变异 性 假说 ， 即 


“最 早 在 19 世 纪 和 初叶 ， 约 翰 : 梅 元 尔 认为 男性 的 能 力 施 围 大 于 女 
性 ， 元 其 在 智商 上 。 换 句 话 说， 他 相信 天 才 和 弱智 人 口中 ， 男 性 
语 绝 大 多 数 。 梅 区 尔 断 言 女 性 缺少 变异 性 正 是 较为 低级 的 表现 ， 
所 以 他 觉得 男性 是 “优越 生物 '。” 


来 目 http://en.wikipedia.org/wiki/Variability_hypothesis 。 


我 万 其 喜欢 最 后 那 部 分 ， 因 为 我 怀疑 ， 如 采 事 实 能 证 明 廊 性 的 变 
异性 实际 上 更 大 ， 梅 区 尔 也 会 把 这 作为 较 低 级 的 标志 。 无 论 如 何 ， 你 
总 能 听 到 变异 性 假说 的 证 据 站 不 住 脚 的 说 法 。 


不 过 ， 最 近 我 在 课 上 检查 来 自 CDC 的 危险 因素 监测 系统 
(BRFSS) 的 数据 ， 尤 其 是 自我 提交 的 成 年 美国 男性 和 女性 的 高 度数 
据 时 ， 也 遇 到 了 这 个 问题 。 该 数据 集 包 括 了 154407 名 男性 和 254722 和 名 
女性 。 以 下 是 我 们 的 发 现 : 


。 男性 平均 身高 为 178 厘 米 ， 女 性 平均 身高 为 163 厘 米 ， 所 以 从 平均 
值 看 男人 高 大 ， 这 腥 不 奇怪 。 

。 男性 身高 数据 的 标准 偏差 是 7.7 厘 米 ， 女 性 是 7.3 厘 米 ， 因 此 ， 从 绝 
对 值 上 看 ， 男 性 身高 的 变异 性 更 大 些 。 

。 但 是 为 了 比较 组 间 数 据 的 变异 性 ， 采 用 变异 系数 (Coefficient of 
Variation，CV) 更 有 意义 ， 即 标准 偏差 除 以 平均 值 。 相 对 于 刻度 
而 言 ， 这 是 变异 性 的 一 个 量 纲 无 关 的 衡量 值 。 对 于 男性 CV 为 
0.0433; 对 于 女性 CV 是 0.0444。 


这 吏 很 徘 详 了 ， 所 以 我 们 可 以 得 出 结论 ， 此 数据 集 提供 了 有 力 的 
证 据 反 对 变异 性 假说 。 但 是 我 们 还 可 以 用 贝 叶 斯 方法 得 到 更 精确 的 结 
0 题 的 过 程 中 ， 我 还 有 机 会 来 演示 一 些 处 理 大 数据 集 
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我 以 下 面 几 个 步 又 进行 : 


1. 我 们 先 从 最 简单 的 实现 开始 ， 不 过 它 仅 适用 于 小 于 1000 个 值 的 
数据 集 。 


2. 通过 对 概率 进行 对 数 变 换 ， 我 们 可 以 扩展 到 全 量 数据 集 ， 但 计 


算 会 变 慢 。 


3. 最 后 ， 我 们 以 近似 贝 叶 斯 计算 加 快 计算 过 程 ， 它 也 被 称 为 ABC 


(Approximate Bayesian Computation) 。 


你 可 以 从 http:NAthinkbayes.com/variability.py 下 载 本 章 中 的 代码 。 欲 
了 解 更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 


10.2 均值 和 标准 差 
在 第 9 章 我 们 通过 联合 分 布 同时 估算 了 两 个 参数 。 在 本 章 中 ， 我 
们 用 同样 的 方法 来 估计 高 斯 分 布 的 参数 ， 均 值 nu ， 标 准 差 sigma 。 


就 这 个 问题 ， 我 定义 了 一 个 名 为 height 的 Suite 对 象 ， 其 表示 每 
一 个 mu, sigma 对 到 其 概率 的 映射 : 


class Height(thinkbayes.Suite, thinkbayes.Joint): 


def _ init (self, mus, sigmas): 
thinkbayes.Suite. init _(self) 


pairs = [(mu, sigma) 
for mu in mus 
for sigma in sigmas] 


thinkbayes.Suite. init (self, pairs) 


mus 是 mu 值 的 一 个 序列 ，sigmas 的 是 sigma 值 的 一 个 序列 。 所 
有 mu ，sigma 对 的 先 验 分 布 是 一 个 均匀 分 布 。 


似 然 画 数 容易 得 出 ， 考 虑 到 mu 和 sigma 的 假定 值 ， 我 们 计算 某 一 
个 特定 值 x 的 似 然 度 。EvalGaussianPdf 的 作用 ， 就 是 这 个 ， 因 此 我 
们 要 做 的 就 是 使 用 它 : 


# class Height 


def Likelihood(self, data, hypo): 
x = data 
mu, sigma = hypo 
like = thinkbayes.EvalGaussianPdf(x, mu, sigma) 
return like 


如 果 曾 经 从 数学 的 角度 学 习 过 统计 学 ， 你 知道 当 进 行 PDF 估计 时 得 
到 的 是 概率 密度 。 为 了 得 到 一 个 概率 ， 你 必须 在 一 定 范围 上 对 概率 窗 


度 积分 。 


但 束 我 们 的 目的 来 说 ， 我 们 其 实 不 需要 概率 ， 只 是 需要 一 些 正比 
于 所 求 概率 的 量 ， 概 率 密度 就 挺 合适 。 这 个 问题 最 难 的 部 分 是 选择 mus 
和 sigmas 的 合适 范围 。 如 有 果 范 围 太 小 ， 会 忽略 了 一 些 值得 注意 的 概率 
值 ， 寻 致 得 到 错误 结 末 。 如 条 犯 围 太 大 ， 尽 管 可 以 得 到 正确 的 答案 ， 
但 是 白 日 浪费 了 计算 能 力 。 


所 以 在 这 里 有 机 会 利用 经 典 的 估计 方法 ， 让 贝 叶 斯 方法 更 高 效 。 
具体 说 ， 我 们 可 以 用 经 典 的 舍 计 量 找到 mu 和 sigma 的 最 可 能 位 置 ， 并 
利用 这 些 估计 的 标准 误差 来 选择 一 个 可 能 的 范围 。 如 采 分 布 的 实际 参 
数 古 py 和 a ， 我 们 取 n 个 值 的 一 个 样本 ,4 的 估计 量 束 是 样本 的 均值 m 。 


0 的 估计 量 古 样本 的 标准 方差 ，s 。 
对 4 的 估计 的 标准 误差 为 s/vn ， 而 对 o 的 估计 的 标准 误差 为 
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下 面 就 是 所 有 相关 计算 的 代码 : 


def FindPriorRanges(xs, num_points, num_stderrs=3.0): 


compute m and s 

len(xs) 

numpy .mean (xs) 
numpy .std(xs) 


wm 三 三 间 


# Compute ranges for m and s 
stderr m= s / math.sqrt(n) 
mus = MakeRange(m, stderr_m) 


stderr_s=s / math.sqrt(2 * (n-1)) 
sigmas = MakeRange(s, stderr_s) 


return mus, sigmas 


xs 是 数据 集 。num_points 是 取 值 范围 内 所 需 的 值 的 个 数 。 
num_stderrs 是 估计 量 两 侧 该 范围 的 宽度 ， 以 标准 误差 计 。 


返回 值 是 mu 和 sigma 数值 对 构成 的 一 个 序列 。 
MakeRange 如 下 : 


def MakeRange(estimate, stderr): 
spread = stderr * num_stderrs 
array = numpy.linspace(estimate-spread, 
estimatet+tspread, 
num_points) 
return array 


numpy .1inspace 创建 一 个 由 等 距 分 隔 的 元 素 构成 的 数组 ， 在 
estimate-spread 和 estimate+spread 区 间 上 ， 包 括 左右 两 端的 
值 。 


10.3 更 新 


最 后 ， 下 面 是 创建 和 更 新 Suite 对 象 的 代码 : 


mus, sigmas = FindPriorRanges(xs, num_points) 
suite = Height(mus, sigmas) 
suite.UpdateSet(xs) 


print suite.MaximumLikelihood() 


根据 数据 来 选择 先 验 分 布 的 范围 ， 接 着 又 利用 这 些 数据 再 次 做 了 
更 新 ， 这 个 过 程 多 少 有 些 作伪 。 通 常 来 说 ， 两 次 利用 了 相同 的 数据 ， 
事实 上 的 确 是 作伪 。 

但 在 这 个 例子 里 是 可 以 的 。 的 确 ， 2 
围 ， 但 这 只 是 为 了 避免 计算 数量 很 大 、 值 却 微 乎 其 微 的 概率 。 
num_stderrs = 4, 汪汪 训 电 纪 训 以 入 善 广 在 们 得 兰 诬 的 似 你 度 
和 随后 再 扩大 范围 对 结果 也 毫 无 景 上 啊 。 


实际 上 ，mu 和 sigma 的 所 有 值 上 ， 先 验 都 是 均匀 分 布 的 ， 但 为 了 
计算 效率 我 们 忽略 了 所 有 不 重要 的 值 。 


10.4 CV 的 后 验 分 布 


一 旦 有 了 mu 和 sigma 的 后 验 联合 分 布 ， 我 们 束 可 以 计算 出 男女 的 
V 分 布 ， 自 然 地 ， 其 中 一 个 的 概率 会 超过 另外 一 个 的 概率 。 


为 了 计算 CV 的 分 布 ， 我 们 枚 举 mu 和 sigma 的 数值 对 : 


def CoefVariation(suite): 
pmf = thinkbayes.Pmf() 
for (mu, sigma), p in suite.Items(): 


pmf.Incr(sigma/mu, p) 
return pmf 


然后 我 们 用 thinkbayes .PmfProbGreater 来 计算 男性 有 更 多 
变异 性 的 概率 。 


分 析 本 吴 很 商 单 ， 但 还 有 两 个 额外 的 我 们 必须 处 理 的 问题 。 


1.， 随 着 数据 集 大 小 的 增加 ， 我 们 碰 到 了 一 系列 由 于 浮 点 运算 限制 
市 来 的 计算 问题 。 


2， 该 数据 集 包含 了 一 些 几 乎 肯定 不 对 的 极端 值 。 我 们 需要 让 估计 
过 程 在 遇 到 这 些 异 角 i 时 也 是 健壮 的 。 


以 下 各 市 将 解释 这 些 问题 及 其 解决 方案 。 


10.5 ”数据 下 淤 


如 采 从 BRFSS 数 据 集 选择 前 100 个 值 进行 我 所 说 的 分 析 ， 程 序 将 会 
运行 正常 ， 而 且 得 到 看 起 来 合理 的 后 验 分 布 。 


如 果 我 们 选择 前 1000 个 的 值 ， 然 后 再 次 运行 程序 ， 我 们 将 从 
Pmf .Normalize 得 到 一 个 错误 : 


ValueError: total probability is zero. 


这 个 问题 在 于 我 们 使 用 概率 密度 来 计算 似 然 度 ， 而 连续 分 布 密 度 
往往 很 小 。 如 朱 你 把 1000 个 值 相 乘 ， 其 结果 将 是 非 芝 小 的 。 在 这 个 例 
子 里 ， 其 值 甚至 小 到 不 能 由 一 个 浮 点 数 来 表示 ， 所 以 被 向 下 舍 入 到 
零 ， 这 被 称 为 下 洲 。 而 如 果 分 布 的 所 有 概率 是 90， 也 就 不 再 成 其 为 一 个 
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一 种 可 能 的 解决 方案 是 每 次 更 新 后 重新 归 一 化 Pmf， 或 者 每 批 计 算 
100 个 值 ， 这 样 就 正常 了 ， 但 很 慢 。 

一 个 更 好 的 选择 是 以 对 数 变 换 来 计算 似 然 度 。 这 样 一 来 就 不 是 将 
较 小 值 相 乘 ， 而 是 将 对 数值 相 加 了 “。Pmf 提供 了 Log 、 
LogUpdateSet 和 Exp 方法 ， 使 这 个 过 程 变 得 简单 。 


Log 计算 Pmf 中 概率 的 对 数 : 


# class Pmf 


def Log(self): 
m = self.MaxLike() 
for x, p in self.d.iteritems(): 


if p: 
self.Set(x, math.1log(p/m)) 
else: 

self.Remove(x) 


在 应 用 Log 进行 对 数 变 换 前 ， 使 用 MaxLike 找到 m 一 一 Pmf 中 最 
高 的 概率 值 。 把 所 有 概率 除 以 n ， 所 以 最 高 概率 被 归 一 化 为 1， 这 将 得 


到 一 个 为 0 的 对 数 。 其 他 日 志 概 率 均 为 负 值 。 如 采 Pmf 中 有 任何 值 的 概 
率 为 0， 去 掉 它 们 。 


然而 Pmf 是 基于 对 数 变换 的 ， 我 们 不 能 使 用 Update 、 
UpdateSet 或 Normalize。 否 则 其 结果 将 没有 意义 ， 如 果 你 这 么 
用 ，Pmf 会 引发 异常 。 相 反 ， 我 们 必须 使 用 LogUpdate 和 
LogUpdateSet 。 


下 面 是 LogUpdateSet 的 实现 : 


# class Suite 


def LogUpdatesSet(self, dataset): 


for data in dataset: 
self.LogUpdate(data) 


LogUpdateSet 遍历 数据 并 调用 LogUpdate : 


# class Suite 


def LogUpdate(self, data): 
for hypo in self.Values(): 
like = self.LogLikelihood(data, hypo) 
self.Incr(hypo, like) 


LogUpdate 类 似 Update ,不 同 的 是 它 调用 Loglikelihood 而 
不 是 Likelihood ，Incr 而 不 是 MulLt 。 


采用 对 数 似 然 避 人 免 了 下 汶 的 问题 ， 但 同时 Pmf 只 是 进行 对 数 变换 ， 
没有 更 多 作用 了 。 我 们 还 必须 使 用 Exp 来 转 置 这 一 变换 过 程 : 
# class Pmf 


def Exp(self): 
m = self.MaxLike() 


for x, p in self.d.iteritems(): 
self.Set(x, math.exp(p-m)) 


如 果 对 数 似 然 度 是 一 个 大 的 负数 ， 得 到 的 似 然 值 有 可 能 下 溢 。 所 
以 Exp 寻找 对 数 似 然 度 的 最 大 值 n ， 再 用 m 转换 回 所 有 的 似 然 值 ( 非 对 
数 ) 。 得 到 的 分 布 具有 1 的 最 大 似 然 度 。 这 个 过 程 以 最 小 的 精度 损失 转 
置 了 对 数 变换 。 


10.6 ”对 数 似 然 


现在 我 们 需要 的 是 Loglikelihood 。 


# class Height 


def LogLikelihood(self, data, hypo): 
x = data 
mu, sigma = hypo 
loglike = scipy.stats.norm.logpdf(x, mu, sigma) 
return loglike 


norm.logpdf 计算 高 斯 PDF 的 对 数 似 然 值 。 
下 面 是 整个 更 新 过 程 : 


suite.Log () 
suite.LogUpdateSet (xs) 
suite.Exp () 


suite.Normalize () 


回顾 一 下 ，Log 将 Suite 对 象 进行 对 数 转 换 。LogUpdateSet 调用 
LogUpdate ， 再 调用 Loglikelihood 。LogUpdate 使 用 
Pmf ,Incr ， 因 为 将 对 数 似 然 值 相 加 等 同 于 似 然 度 相 乘 。 


更 新 后 ， 对 数 似 然 都 是 较 大 的 负数 ， 所 以 在 进行 变换 转 置 前 ，Exp 
对 它们 进行 转换 ， 这 就 是 我 们 避免 下 洲 的 过 程 。 

一 旦 该 suit 对 象 被 转化 回来 ， 概 率 就 变 回 “线性 ?的 ， 这 意味 着 
其 “ 非 对 数 " 了 ， 上 所 以 我 们 可 以 再 次 使 用 Normal1ize。 


使 用 这 种 算法 ， 可 以 在 处 理 整 个 数据 集 时 避免 产生 下 次 ， 但 它 仍 
然 很 慢 。 我 的 电脑 处 理 起 来 可 能 需要 一 小 时 。 我 们 还 可 以 做 得 更 好 。 


10.7 一 个 小 的 优化 


本 节 通 过 数学 和 计算 的 优化 百倍 地 加 快 了 速度 。 但 下 一 节 介绍 了 
一 种 还 要 更 快 的 算法 。 所 以 ， 如 果 你 想 直 接 得 到 好 方法 ， 那 么 可 以 跳 


过 这 一 节 。 


Suite. oe 在 每 个 数据 点 上 调用 LogUpdate 一 次 。 
我 们 可 以 通过 每 一 次 计算 整个 数据 集 的 对 数 似 然 值 来 加 快 步伐 。 


我 们 将 开始 于 高 斯 的 PDF: 


对 于 给 定 的 值 序列 x; ， 总 对 数 似 然 是 
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一 过 程 转换 为 Python 代码 如 下 : 


# class Height 


def LogUpdateSetFast(self, data): 
xs = tuple(data) 
n = len(xs) 


for hypo in self.Values(): 
mu, sigma = hypo 
total = Summation(xs, mu) 


loglike = -n * math.log(sigma) - total / 2 / sigma**2 
self.Incr(hypo, loglike) 


本 身 这 只 是 一 个 小 的 优化 ， 但 它 带 来 了 一 个 更 大 的 优化 可 能 性 。 
请 注意 ， 求 和 只 取决 于 mu ， 而 不 是 sigma ， 所 以 对 mu 的 每 一 个 值 我 
们 只 需要 计算 它 一 次 。 


为 了 避免 重新 计算 ， 我 分 解 出 一 个 计算 总 和 的 函数 ， 并 memoize 
它 ， 使 其 在 字典 中 存储 之 前 的 计算 结果 ( 见 


http://en.wikipedia.org/wiki/Memoization ) : 


def Summation(xs, mu, cache={}): 
try: 
return cache[xs, mul] 
except KeyError: 
ds = [(x-mu)**2 for x in xs] 


total = sum(ds) 
cache[xs, mu] = total 
return total 


cache 存储 先前 计算 的 总 和 。 如 果 可 能 try 语句 从 cache 中 返回 一 
个 结果 ， 否 则 计算 总 和 ， 再 缓存 并 且 返 回 计 算 结 果 。 


唯一 美中不足 的 是 ， 我 们 不 能 用 列表 作为 缓存 中 的 一 个 key， 因 为 
它 不 是 一 个 哈 希 类 型 。 这 就 是 为 什么 LogUpdateSetFast 将 数据 集 转 
换 为 一 个 元 组 。 


这 种 优化 以 大 约 100 的 因数 加 快 了 计算 ， 在 我 不 算 快 的 计算 机 上 处 
理 整个 数据 集 (154 407 名 男性 和 254 722 名 女性 ) 用 了 不 到 一 分 钟 。 


10.8 ABC (近似 贝 叶 斯 计算 ) 


但 是 ， 也 许 你 耗 不 起 这 样 的 时 间 。 这 时 候 ， 近 似 贝 叶 斯 计算 
(ABC) 就 是 合适 的 方法 了 。ABC 背 后 的 动因 是 ， 任 何 特定 数据 集 的 
似 然 度 有 以 下 特点 。 


1. 它 非常 小 ， 特 别 是 对 于 大 型 数据 集 来 说 ， 这 就 是 为 什么 我 们 必 
须 使 用 对 数 转换 形式 的 原因 。 


2. 计算 开销 大 ， 所 以 我 们 不 得 不 做 这 么 多 的 优化 。 
3. 它 并 非 我 们 实际 所 要 求 的 。 


我 们 并 不 真正 关心 看 到 某 一 已 知 数据 集 的 具体 似 然 度 。 尤 其 对 于 
连续 变量 ， 我 们 关心 的 是 观测 到 一 个 类 似 于 已 知 数据 的 数据 集 的 似 然 
度 。 例 如 ， 在 欧元 问题 上 ， 我 们 不 关心 硬币 翻转 的 顺序 ， 只 关心 正面 
和 反面 的 总 数 。 而 在 火车 头 问 题 上 ， 我 们 不 关心 看 到 哪 一 个 具体 的 列 
车 ， 而 是 列车 的 数量 和 列车 序号 的 最 大 值 。 


同样 ，BRFSS 的 样本 中 ， 我 们 并 不 真 想 知道 看 到 荣 一 个 数据 值 集 
合 的 概率 (特别 是 因为 有 成 和 十 上 万 的 人 ) ， 而 是 更 类 似 于 提出 这 样 的 
问题 "如 条 从 全 体 人 口中 取出 一 个 参数 为 六 和 a 的 10 万 人 口 样本 ， 那 么 
取 到 一 个 符合 已 知 观测 均值 和 方差 的 样本 的 机 会 是 多 少 ? ” 


对 于 一 个 高 斯 分 布 的 样本 ， 因 为 可 以 分 析 性 地 找到 样本 分 布 的 统 
计量 ， 我 们 可 以 有 效 地 回答 这 个 问题 。 在 计算 先 验 分 布 的 范围 时 ， 我 
们 实际 已 经 做 到 了 这 一 点。 


如 果 从 参数 为 4 和 o 的 高 斯 分 布 取 n 个 值 ， 并 且 计 算 样 本 均值 m ， 
m 的 分 布 是 参数 为 4 和 "Am 的 高 斯 分 布 。 


本 样本 的 标准 差分 布 s ， 也 是 为 参数 v 和 "V ?ln 一 的 高 斯 


给 是 ny 和 o 假设 值 ， 我 们 可 以 使 用 这 些 样本 的 分 布 来 计算 样本 统计 
量 m 和 s 的 似 然 度 。 下 面 是 LogUpdateSet 实现 这 个 功能 的 新 版 本 : 


def LogUpdateSetABC(self, data): 
xs = data 
n = len(xs) 


# compute sample statistics 
m = numpy.mean(xs) 
Ss = numpy.std(xs) 


for hypo in sorted(self.Values()): 
mu, sigma = hypo 


# Compute log likelihood of m, given hypo 
stderr _m = sigma / math.sqrt(n) 
loglike = EvalGaussianLogPdf(m, mu, stderr_m) 


#compute log likelihood of s, given hypo 
stderr_s = sigma / math.sqrt(2 * (n-1)) 
loglike += EvalGaussianLogPdf(s, sigma, stderr_s) 


self.Incr(hypo, loglike) 


在 我 的 电脑 这 个 函数 处 理 整 个 数据 集 用 时 大 约 1 秒 ， 得 到 的 结 末 有 
5 位 数 的 精度 与 实际 结果 一 样 。 


10.9 ”估计 的 可 靠 性 


我 们 已 经 差不多 可 以 看 到 结果 了 ， 但 还 有 一 个 问题 要 处 理 。 数 据 
集中 有 一 些 几 乎 肯定 是 错误 的 异常 数据 值 。 例 如 ， 有 3 个 男人 身高 为 61 
厘米 ， 也 就 是 说 他 们 是 世界 上 最 矮 的 成 年 人 了 。 男 外 ， 有 四 个 身高 229 
厘米 的 女性 ， 这 个 数据 仅 比 世界 上 最 高 的 女人 矮 一 点 。 


这 些 值 也 不 是 完全 没 可 能 ， 但 还 是 有 点 不 确定 性 的 ， 这 些 因 素 让 
处 理 这 些 值 有 些 难度 。 而 且 我 们 必须 处 置 得 当 ， 因 为 这 些 极端 值 对 估 
计 变 异性 问题 有 不 成 比例 的 影响 。 


由 于 ABC 基于 汇总 统计 ， 而 不 是 整个 数据 集 ， 我 们 可 以 选择 在 有 
异常 值 的 情况 下 也 稳定 的 汇总 统计 量 使 这 一 过 程 更 可 靠 。 例 如 ， 我 们 
可 以 不 使 用 样品 平均 值 和 标准 偏差 ， 而 用 中 位 数 和 四 分 位 数 间 距 
(IQR) ， 它 在 第 25 和 第 75 个 百 分 位 数 之 间 。 


和 
IPR) : 


def MedianIPR(xs, p) 


cdf = thinkbayes.MakeCdfFromList(xs) 
median = cdf.Percentile(50) 


alpha = (1-p) / 2 
ipr = cdf.Value(1-alpha) - cdf.Value(alpha) 
return median, ipr 


xs 是 一 个 值 序列 ，p 是 所 布 望 的 范围 ; 例如 ，p = 0.5 产生 四 分 
位 数 间距 。 


MedianIPR 的 工作 原理 是 计算 xs 的 CDF， 然 后 提取 中 位 数 和 两 
个 百 分 位 之 间 的 差 。 


通过 高 斯 CDF 计 算 给 定 标 准 差 的 分 布 的 百分数 ， 我 们 可 以 从 ipr 
转换 到 一 个 sigma 的 估计 值 。 例 如 ， 一 个 众所周知 的 经 验 规则 是 ， 高 
斯 分 布 的 68% 落 入 均值 的 一 个 标准 差 内 ， 在 左右 端 各 留 下 了 其 余 的 
16%。 如果 我 们 在 第 16 和 第 84 百 分 位 数 之 间 的 范围 内 进行 计算 ， 我 们 预 
期 的 结果 是 2*sigma ， 所 以 我 们 可 以 通过 计算 68% 的 IPR 再 除 以 2 来 估 


计 sigma 。 


更 一 般 地 ， 我 们 可 以 选择 sigma 的 个 数 。Medias 提供 了 这 一 计 
算 的 更 通用 的 版 本 : 


def MedianS(xs，num_sigmas ) : 
half_p = thinkbayes.StandardGaussianCdf(num_sigmas) - 0.5 


median, ipr = MedianIPR(xs, half_p * 2) 


s= ipr / 2 / num_ sigmas 


return median, s 


同样 ，xs 是 值 序列 ，num_sigmas 是 结果 所 决定 的 标准 差 数 量 。 
其 结果 是 median ， 的 估计 值 ， 还 有 s ，o 的 估计 值 。 


最 后 ， 在 LogUpdateSetABC 我 们 可 以 用 median 和 s 代替 样品 
平均 值 和 标准 差 ， 效 果 很 好 。 


这 似乎 有 点 儿 奇 怪 ， 我 们 正在 使 用 观察 的 百 分 位 数 佑 计 凡 和 a ， 但 
它 是 贝 叶 斯 方法 灵活 性 的 一 个 示例 。 实 际 上 ， 我 们 一 直 痢 在 问 “ 给 定 一 
个 py 和 o 的 假设 值 ， 还 有 一 个 有 可 能 引入 错误 的 采样 过 程 ， 那 么 生成 一 
组 给 定 统计 样本 的 似 然 度 是 多 少 ? ” 


我 们 可 以 不 受 限制 地 选择 任何 顺眼 的 样本 统计 量 ， 此 时 : jy 和 o 确 
定 了 分 布 的 位 置 和 区 间 ， 所 以 我 们 需要 选择 那些 表现 了 这 些 特 征 的 统 
计量 。 例 如 ， 如 果 我 们 选择 了 第 49 和 第 51 百 分 位 数 ， 有 关 分 布 区 间 范 
围 的 信息 就 很 少 〈 译 注 : 太 罕 ) ， 所 以 使 得 对 c 的 估计 对 数据 的 约束 
小 。 怠 生成 的 观测 值 而 言 ， 所 有 sigma 的 可 能 值 都 将 具备 几乎 相同 似 
然 度 ， 所 以 西格玛 的 后 验 分 布 看 起 来 号 和 前 验 分 布 没有 区 别 。 


10.10” 谁 的 变异 性 更 大 ? 


我 们 终于 可 以 回答 开头 的 问题 了 : 田 性 的 变异 系数 比 女 性 更 大 


通过 使 用 基于 中 位 数 和 IPR 的 ABC 方法 ， 假 设 num_sigmas = 1 
， 我 计算 了 mu 和 sigma 联合 分 布 的 后 验 。 图 10-1 和 图 10-2 显 示 了 结果 
的 等 高 线 图 ，mu 在 x 轴 ，sigma 在 y 轴 ， 概 率 以 z 轴 表 示 。 


后 验 联 合 分 布 


标准 差 (厘米 ) 


0.003 


178.46 178.48 178.50 178.52 178.54 
平均 身高 《厘米 ) 


图 10-1 美国 男性 身高 平均 值 和 标准 差 后 验 联合 分 布 的 等 高 线 图 
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图 10-2 ”美国 女性 身高 平均 值 和 标准 差 后 验 联 合 分 布 的 等 高 线 图 


对 于 每 一 个 联合 分 布 ， 我 计算 了 CV 的 后 验 分 布 。 图 10-3 显 示 了 男 
性 和 女性 的 这 些 分 布 结果 。 男 性 平均 值 为 0.0410; 女性 的 平均 值 为 
0.0429。 由 于 两 者 间 没 有 重 谷 ， 我 们 可 以 比较 确定 地 得 出 女性 在 身高 方 
面 比 男性 变异 性 更 大 的 结论 。 


1.0 


0.8 
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概率 曲线 


0.4 


0.2 


0.0 
0.0405 0.0410 0.0415 en 0.0425 0.0430 0.0435 


图 10-3 ”男性 和 女性 变异 系数 CV 的 后 验 分 布 CDF 曲 线 ， 基 于 可 靠 型 估计 


那么 ， 这 束 古 变异 性 假设 的 最 终 管 案 了 ? 可 悲 的 是 ， 没 有 。 事实 
证 明 ， 这 样 的 结 采 依赖 于 路 百分数 范围 的 选择 。 指 定 num_sigmas = 
1 ， 我 们 可 以 得 出 结论 说 女性 波动 范围 更 大 ， 但 大 十指 定 num_sigmas 
= 2 ， 在 同等 置信 度 下 ， 结 论 是 男性 范围 更 大 。 


这 一 差别 的 原因 在 于 ， 矮 小 身材 的 男人 更 多 ， 偏 离 平 均值 也 较 


因此 ， 我 们 对 变异 性 假设 的 评价 取决 于 对 “变异 性 ”的 解释 。 指 定 
num_sigmas = 1 时 ,我们 关注 于 接近 平均 值 的 人 。 当 加 大 
num_sigmas ， 束 给 予 了 极端 值 更 多 的 权重 。 


选择 究竟 要 突出 问题 的 哪 一 面 ， 我 们 就 需要 对 这 一 假设 更 精确 的 
解释 。 正 因为 如 此 ， 变 异性 假设 可 能 模糊 到 难以 评价 。 


然而 ， 这 有 助 于 说 明 我 的 一 些 新 想法 ， 而 且 我 想 你 会 认可 ， 这 有 是 
一 个 有 趣 的 例子 。 


10.11 讨论 


还 有 两 种 对 ABC 的 看 法 。 一 种 解释 是 ， 如 名 称 所 指 的 ， 和 采用 实 
际 值 的 计算 相 比 ， 近 似 方法 计算 起 来 更 快 。 


但 请 记 住 ， 贝 叶 斯 分 析 总 是 基于 模型 决策 的 ， 这 意味 着 不 存在 “ 精 
确 ” 的 解决 方案 。 任 何 营 人 关注 的 物理 系统 都 可 能 存在 许多 模型 ， 每 个 
模型 产生 不 同 的 结 末 。 要 对 结 来 进行 解释 ， 束 必须 评估 模型 。 


因此 ，ABC 的 男 一 种 解释 是 ， 它 代表 似 然 度 的 另外 一 类 模型 。 当 
We 五 )， 我 们 提出 的 问题 是 “在 一 个 给 定 假 设 下 ， 数 据 的 似 然 度 是 
40 

对 于 大 型 数据 集 ， 数 据 的 似 然 度 非常 小 ， 这 意味 上 面 的 问题 可 能 
就 不 合适 。 我 们 真正 想 知 道 的 结果 是 新 的 数据 类 似 于 已 知 数 据 的 可 能 
性 ， 而 这 里 , “类 似 ” 的 定义 又 是 一 个 建 模 决 策 。 


ABC 表 后 的 基本 思想 征 ， 如 采 两 个 数据 集 产 生 了 相同 的 质 述 性 统 
计量 ， 那 它们 避 ® 是 类 似 的 。 但 在 某 些 情况 下 ， 如 在 本 半 的 例子 中 ， 到 
的 选择 哪 种 汇总 统计 量 并 不 明显 。 


你 可 以 从 We sa com/variability.py 下 载 本 章 中 的 代码 。 欲 
了 解 更 多 信息 ， 请 参见 第 前 言 的 “代码 指南 ”。 


10.12 ”练习 
练习 10-1 。 


“效应 量 (effect size) “是 一 个 旨 在 衡量 两 组 之 间 的 差异 的 统计 量 
( 见 http://en.wikipedia.org/wiki/Effect_size ) 。 


例如 ， 我 们 可 以 使 用 从 BRFSS 得 到 的 数据 去 估算 男性 文 性 之 间 的 
高 度 避 寞 。 由 py 和 o 的 后 验 分 布 的 采样 值 ， 束 能 生成 这 一 老 异 的 后 验 分 


但 使 用 效应 量 的 无 量 纲 度 量 方法 可 能 更 好 ， 而 不 以 厘米 为 单位 进 
行 差 异 衡量 。 一 种 选择 是 通过 将 其 〈 数 据 ) 除 以 标准 差 (类 似 于 我 们 
用 变异 系数 一 样 ) 。 

如 果 组 1 的 参数 为 ul ，o1) ， 组 2 的 参数 为 (1 ，，o2) ， 


无 量 纲 的 效应 量 融 是 


Hl1 一 及 2 
(ol 二 og ) /2 


编写 一 个 函数 ， 它 接收 两 组 数据 的 mu 和 sigma 的 联合 分 布 ， 并 返 
回 效应 量 的 后 验 分 布 。 


是 示 : 如 果 枚 举 两 个 分 布 所 有 数值 对 的 时 间 太 长 ， 应 考虑 随机 采 


第 11 章 ”假设 检验 
11.1 回 到 欧元 问题 


第 27 页 的 “欧元 问题 * 中 ， 我 介绍 了 来 目 麦 凯 《 信 息 、 理 论 、 推 理 
和 学 习 算 法 》 中 的 一 个 问题 ; 


2000 年 1 月 4 日 星期 五 ，《 卫 报 》 上 刊载 了 一 个 统计 相关 的 声 


明 : 

当 以 边缘 转动 比利时 一 欧元 硬币 250 次 时 ， 得 到 的 结 采 是 正面 
140 次 反面 110 次 。“ 这 看 起 来 很 可 疑 "， 伦 敦 经 济 学 院 的 统计 讲师 
和 

796”。 
那么 ， 这 一 结 采 是 否 为 “ 便 币 偏心 而 非 均 匀 ” 提 供 了 证 据 呢 ? 


我 们 估计 了 便 币 正面 朝 上 的 概率 ， 但 我 们 并 没有 真正 回答 麦 山 的 
问题 : 数据 是 否 佐证 了 硬币 是 偏心 的 ? 

在 第 4 章 中 我 提出 ， 如 有 果 数 据 在 某 一 假设 下 比 另 外 假设 下 的 可 能 
人 
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在 欧元 问题 的 例子 中 ， 我 们 考虑 两 个 假设 : 使 用 已 表示 便 币 是 侦 
心 的 假设 ，B 表示 硬币 是 均匀 的 假设 。 


如 果 硬 币 古 均匀 的 ， 容 易 计 算数 据 的 似 然 度 ，p(D | 下 )。 实 际 上 ， 
我 们 已 经 完成 了 一 个 函数 实现 这 个 计算 。 


def Likelihood(self, data, hypo): 
x = hypo / 100.0 
head, tails = data 


like = x**heads * (1-x)**tails 
return like 


我 们 可 以 创建 一 个 调用 Likelihood 的 Euro suite 对 象 


suite = Euro() 
likelihood = suite.Likelihood(data, 50) 


p(D IF ) 是 5.5x10-% ， 这 一 结果 除了 说 明 任 何 特定 数据 集 的 概率 相 
当 小 ， 没 有 什么 用 处 。 需 要 求 得 两 个 似 然 度 再 求 它们 的 比率 ， 所 以 我 
们 还 要 计算 p(D |B )。 


汪 要 如 何 计算 B 的 似 然 度 并 不 明确 ， 因 为 “偏心 ”的 含义 并 不 那么 明 


一 种 可 能 性 是 在 定义 假设 前 预先 检查 数据 。 那 么 在 这 个 例子 
“偏心 ”就 是 指正 面 辐 上 的 概率 为 140/250。 


actual percent = 100.0 *140/250 
likelihood = suite.Likelihood(data, actual percent) 


假设 B 的 这 个 版 本 我 称 之 为 B_cheat ; b_cheat 的 可 能 性 是 
似 然 比 是 6.1。 因 此 ， 我 们 可 以 说 ， 数 据 是 支持 这 个 版 本 的 
B 假设 的 。 


但 使 用 该 数据 来 制定 的 假设 显然 是 有 作伪 嫌疑 的 。 根据 这 一 害 
> 任何 数据 集 都 将 文 持 假设 B ， 除 非 所 观察 到 的 正面 同上 百分比 恰 
是 50%。 


11.2 ”来 一 个 公平 的 对 比 


为 了 实现 一 个 公正 的 对 比 ， 我 们 必须 在 无 视 数 据 的 情况 下 先 定 义 
B。 那 么 我 们 来 竹 试 一 个 不 同 的 定义 。 如 采 检 查 比 利 时 欧元 硬币， 你 
可 能 会 注意 到 “正面 * 比 “反面 ”更 加 突出 。 可 以 猜想 ， 形 状 对 x 有 一 定 的 
影响 ， 但 不 能 确定 是 否 束 是 这 一 因素 让 正面 多 或 者 少 一 点 。 所 以 ， 你 
可 能 会 想 ; “我 认为 硬币 偏心 所 以 x 是 0.6 或 0.4， 但 不 知道 究 苋 十 多 


我 们 可 以 好 好 考虑 下 这 个 由 两 个 子 假设 构成 的 被 称 为 B_two 的 假 
J ° 我 们 可 以 计算 出 每 个 子 假设 的 似 然 度 ， 然 后 计算 平均 似 然 


= suite.Likelihood (data, 40) 
= suite.Likelihood (data, 60) 


likelihood= 0.5 * like40 + 0.5 * like60 


对 于 b_two 似 然 度 比 (或 贝 叶 斯 因子 ) 为 1.3， 这 意味 着 数据 提供 
微弱 的 证 据 支 持 b_two 。 


更 一 般 地 ， 设 想 你 怀疑 硬币 就 是 偏心 不 均匀 的 ， 可 是 对 于 x 的 值 
没有 线索 。 在 这 种 情况 下 ， 你 可 以 建立 一 个 称 为 bp_uniform 的 Suite 
对 象 ， 代 表 从 0 到 100 的 子 假设 。 


b_uniform =Euro(xrange (0 ，101) ) 
b_uniform.Remove (50) 


b_uniform.Normalize () 


我 以 值 0 到 100 初 始 化 bp_uniform。 删 除了 x 等 于 50% 的 子 假设 ， 
因为 当 x 为 50% 时 ， 人 硬币 就 是 均匀 的 ， 不 管 你 删 不 删除 除 这 一 值 ， 对 结 
果 几 平 都 没有 影响 。 


要 计算 bp_uniform 的 可 能 性 ， 我 们 计算 每 个 子 假设 的 似 然 度 ， 
并 素 加 其 加 权 平 均值 。 


def SuiteLikelihood(Suite, data): 
total = 0 
for hypo, prob in Suite.Items(): 
like = suite.Likelihood(data, hypo) 


total += prob * like 
return total 


b_unifornm 的 似 然 比 是 0.47， 这 意味 着 相 比 于 F ， 数 据 对 
b_uniform 只 算是 微弱 的 证 据 。 


如 果 你 考虑 下 SuiteLikelihood 的 计算 ， 你 可 能 会 注意 到 这 类 
似 于 一 个 更 新 过 程 。 来 回忆 一 下 ， 下 面 是 Update 的 功能 : 


def Update(self, data): 
for hypo in self.Values(): 
like = self.Likelihood(data, hypo) 


self .Mult(hypo, like) 
return self.Normalize() 


Normalize 如 下 : 


def Normalize(self): 
total = self.Totall() 


factor = 1.0 / total 


for x in self.d: 
self.d[x] *= factor 


return total 


Normalize 的 返回 值 是 Suite 对 象 中 以 先 验 的 概率 加 权 的 总 概率 
值 ， 即 子 假设 的 平均 似 然 度 。Update 继续 处 理 这 个 值 ， 所 以 不 用 对 
SuiteLikelihood 进行 处 理 ， 我 们 就 可 以 像 下 面 这 样 计算 
b_unifornm 的 似 然 度 : 


likelihood= b_uniform.Update(data) 


11.3 ”三角 前 验 


在 第 4 章 中 ， 我 们 还 讨论 了 形 如 三 角 的 前 验 分 布 ， 其 在 50% 附 近 的 
值 有 更 高 的 概率 。 如 果 将 子 假设 的 先 验 分 布设 是 为 三 角 前 验 ， 可 以 这 
样 计算 它 的 似 然 度 : 


b_triangle = TrianglePrior() 
likelihood= b_triangle.Update(data) 


和 假设 F 相 比 ，b_triangle 的 似 然 比 为 0.84。 所 以 我 们 可 以 说 
该 数据 对 于 假设 B 只 算是 微弱 的 证 据 。 


下 表 显 示 了 已 考虑 的 可 能 性 的 移 验 概率 ， 以 及 相对 于 F 的 似 然 比 
(或 贝 叶 斯 因子 )。 


Pe oo Cia 
” 


根据 我 们 选择 的 定义 ， 数 据 会 对 “硬币 是 侦 心 的 ”提供 文 持 或 者 反 


对 的 证 据 ， 但 在 两 种 情况 下 ， 证 据 都 是 相对 微弱 的 。 


综 上 所 述 ， 我 们 可 以 用 贝 叶 斯 假设 检验 来 比较 F 和 B 的 似 然 度 ， 
但 必须 做 一 些 工 作 来 精确 指出 假设 B 的 含义 。 这 一 点 依赖 于 硬币 和 硬 
币 旋转 行为 的 背景 信息 ， 所 以 对 所 谓 正确 的 定义 ， 人 们 都 有 理由 提出 
异议 。 

我 就 这 个 例子 的 介绍 延续 了 大 卫 . 麦 凯 的 讨论 ， 得 到 了 -一样 的 结 


论 。 你 可 以 从 http:Nthinkbayes.com/euro3.py 下 载 本 章 代 码 。 欲 了 解 更 
多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 


11.4 讨论 


对 于 B_uniform ， 贝 叶 斯 因子 为 0.47， 和 下 对比 ， 这 意味 着 数据 
提供 的 证 据 反 对 这 一 假设 。 在 前 面 的 部 分 中 ， 我 将 这 一 证 据 描 述 
为 “ 弱 ”， 但 没有 说 明 原 因 。 


部 分 原因 有 些 年 涉 。 喻 罗 德 : 杰 弗 里 斯 ， 贝 叶 斯 统计 的 早期 支持 


者 ， 提 出 了 一 个 解读 贝 叶 斯 因子 的 尺度 : 


一 拓 


在 本 例 中 ， 文 持 B_uniform 的 贝 叶 斯 因子 是 0.47， 所 以 支持 F 的 
贝 叶 斯 因子 是 2.1， 也 惑 是 态 弗 里 斯 认为 的 “不 值 一 所 ”， 其 他 的 学 者 也 
" 和 右 要 避免 这 些 形容 词 上 的 页 酌 ， 我 们 可 以 用 胜率 


如 果 你 之 前 的 胜率 是 1:1， 接 着 你 看 到 了 贝 叶 斯 因子 为 2 的 证 据 ， 
你 胜率 的 后 验 惑 古 2:1°。 在 概率 方面 ， 数 据 将 你 的 信念 度 (degree of 
belief) 从 50% 改 变 到 66%。 而 对 于 大 多 数 现实 世界 的 问题 来 说 ， 这 一 
类 影响 与 建 模 误差 和 其 他 不 确定 性 来 源 导致 的 影响 相 比 要 小 些 。 


一 种 情况 下 ， 如 有 果 你 得 到 一 个 贝 叶 斯 因子 是 100 的 证 据 ， 你 的 后 
验 胜 率 将 是 100:1 或 99% 以 上 。 无 论 你 古 否 同意 ， 这 样 的 证 据 十 “决定 
性 的 "， 是 相当 强烈 的 证 据 。 


11.5 练习 

练习 11-1。 

有 些 人 相信 第 六 感 (ESP) 的 存在 。 例 如 ， 有 些 人 猜 扑 克 牌 的 能 
力 比 随意 进行 猜测 要 高 。 

在 这 类 ESP 上 ， 你 的 前 验 信 度 是 什么 ? 你 认为 它 可 能 存在 还 是 不 
存在 ? 还 是 你 强烈 质疑 它 呢 ? 写 下 你 的 先 验 胜率 。 

现在 ， 计 算 能 说 服 你 相信 ESP 至 少 有 50% 可 能 存在 的 证 据 强度 。 
多 大 的 贝 叶 斯 因子 能 让 你 90% 确 定 ESP 的 存在 ? 

练习 11-2。 

设想 前 一 个 问题 的 答案 是 1000。 也 就 是 说 ， 一 个 贝 叶 斯 因子 是 
1000 的 支持 ESP 的 证 据 才 可 以 改变 你 的 想法 。 现 在 假设 你 在 一 个 权威 


评审 科学 期 刊 上 读 到 了 一 篇 论文 ， 当 中 提出 了 一 个 贝 叶 斯 因子 是 1000 
的 支持 ESP 的 证 据 ， 这 会 改变 你 的 想法 吗 ? 


如 琳 没 有 ， 你 怎么 解决 这 个 明显 的 矛 慎 ?你 会 发 现 阅 读 大 卫 : 休 误 
的 文 草 《奇迹 》 会 帮助 你 思考 这 个 问题 。 文 草 见 
http://en.wikipedia.org/wiki/Of Miracles ° 


第 12 章 ”证据 
12.1 解读 SAT 成 绩 


假设 你 是 马 防 请 塞 州 一 个 工程 学 院 的 招生 院 长 ， 正 在 考虑 两 个 候 
选 人 爱丽 丝 和 鲍 勒 ， 他 们 在 许多 方面 的 资历 都 差不多 ， 只 是 爱丽 丝 在 
站 。SAIT 是 旨 在 衡量 大 学 水 平 数 学 准备 情况 的 标 
准 测 试 。 


如 来 爱丽 丝 得 到 了 780 分 ， 印 动 得 到 了 740 分 〈 满 分 800 分 上 ) ， 你 
也 许 想 知道 这 一 差异 是 否 就 是 爱丽 丝 比 鲍 孝 准备 得 更 好 的 证 据 ， 还 有 
证 据 的 强度 是 多 少 。 


现实 中 ， 这 两 个 分 数 都 非常 好 ， 而 且 两 位 候选 人 可 能 都 为 大 学 数 
学 学 习 做 好 了 准备 。 所 以 真正 的 院 长 可 能 会 建议 我 们 选择 那些 最 能 体 
现 我 们 而 望 学 生 所 有 具备 的 技能 和 态度 的 候选 人 。 不 过 既然 这 是 一 个 由 
叶 斯 假设 检验 的 例子 ， 我 们 还 是 坚持 住 不 要 扩大 问题 范畴 ， 即 :“ 爱 丽 
丝 比 鲍 动 准备 得 更 好 的 证 据 有 多 强 ? ” 


要 回答 这 个 问题 ， 需 要 进行 一 些 建 模 决策 。 我 将 以 一 个 其 实 不 真 
实 的 位 化 版 开始 ， 然 后 再 回来 改进 模型 。 暂 时 的 ， 先 假定 所 有 的 SAT 试 
题 有 同等 难度 。 事 实 上 ，SAT 设 计 师 选 择 的 试题 是 有 一 定 难 度 区 间 的 ， 
因为 这 提高 了 度量 答题 者 统计 差异 的 能 


但 是 ， 如 果 我 们 选择 一 个 全 部 试题 有 同等 难度 的 模型 ， 束 可 以 为 
每 个 参加 测试 者 定义 一 个 特征 p_correct ， 即 答对 任 一 问题 的 概率 。 
这 种 简化 可 以 很 容易 地 计算 出 给 定 得 分 的 似 然 度 。 


12.2 ”比例 得 分 SAT 


为 了 理解 SAT 成 绩 ， 我 们 要 了 解 得 分 和 比例 分 数 的 计算 过 程 。 每 个 
测试 者 基于 对 题 和 错 题 的 数量 会 得 到 一 个 原始 分 数 。 原 始 得 分 被 转换 
为 200~-800 间 的 比例 分 数 。 


2009 年 ，SAT 数 学 部 分 有 54 题 ， 原 始 分 数 为 每 个 测试 者 答对 题 的 个 
数 减 去 答 错 题 的 个 数 乘 以 1/4 分 〈 即 ， 答 对 1 题 得 1 分 ， 答 错 1 题 减 L/4 
2 


负责 管理 SAT 的 高 校 理事 会 ， 发 布 了 一 个 从 原始 分 数 到 比例 分 数 的 
映射 图 。 我 下 载 了 该 数据 并 将 其 封装 在 一 个 插值 对 象 中 ， 它 能 进行 正 
向 (从 原始 分 数 到 比例 分 数 ) 和 反 向 《从 比例 分 数 到 原始 分 数 ) 碍 


O 〇 


你 可 以 从 http:Mpinkbayes.comysatpy 下 载 这 个 例子 的 代码 ， 更 多 信 
妃 请 参见 前 言 的 “代码 指南 ”。 


12.3” 先 验 


美国 大 学 理事 会 还 发 布 了 所 有 测试 者 比例 分 数 的 分 布 。 如 果 我 们 
把 每 一 个 比例 分 数 转 换 为 原始 分 数 ， 并 除 以 题目 数量 ， 那 么 结果 就 是 
p_correct 的 估计 值 。 所 以 我 们 可 以 使 用 原始 分 数 的 分 布 为 
p_correct 的 先 验 分 布 建 模 。 


下 面 是 读 取 并 人 处理 数据 的 代码 : 


class Exam(object): 


def _ init (self): 
self.scale = ReadScale() 
scores = ReadRanks() 


score_pmf = thinkbayes.MakePmfFromDict(dict(scores)) 
self.raw = self.ReverseScale(score_pmf) 
self.prior = DivideValues(raw, 54) 


Exam 封装 了 我 们 已 知 的 有 关 考 试 的 信息 。ReadScale 和 
ReadRanks 读 取 文件 并 返回 包含 了 数据 的 一 个 对 象 : selLf .scale 
是 转换 原始 分 数 到 比例 分 数 (或 者 相反 ) 的 Interpolator ; 
scores 是 〈 得 分 ， 频 率 ) 对 的 列表 。 


score_pmf 是 缩放 分 数 的 Pmf 对 象 。self .raw 是 原始 分 数 的 
Pmf 对 象 。self .prior 是 p_correct 的 Pmf 对 象 。 


图 12-1 显 示 了 p_correct 的 先 验 分 布 。 这 种 分 布 近似 于 高 斯 分 
布 ， 但 是 它 在 两 端 很 平 。 在 设计 上 ，SAT 强 调 了 平均 值 两 个 标准 差 内 的 
测试 者 得 分 ， 而 忽略 超出 该 范围 的 部 分 。 
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图 12-1 ”SAT 考试 考生 p_correct 的 先 验 分 布 


对 于 每 一 个 参加 测试 者 ， 我 定义 了 一 个 名 为 Sat 的 Suite 对 象 ， 代 
表 p_correct 的 分 布 。 定 义 如 下 : 


class Sat(thinkbayes.Suite): 


def _ init (self, exam, score): 
thinkbayes.Suite. init _(self) 
self.exam = exam 
self.score = Score 


# start with the prior distribution 
for p_correct, prob in exam.prior.Items(): 
self.Set(p_correct, prob) 


# Update based on an exam Score 
self.Update(score) 
init _ 接收 一 个 Exam 对 象 和 比例 分 数 。 它 创建 一 个 先 验 的 副 
本 ， 再 根据 考试 成 绩 更 新 这 个 副本 。 


像 往常 一 样 ， 我 们 从 Suite 继承 Update ， 再 改写 Likelihood 


def Likelihood(self, data, hypo): 
p_correct = hypo 
score = data 


k = self.exam.Reverse(score) 
= self.exam.max_score 


n 
like = thinkbayes.EvalBinomialPpmf(k, n, p_correct) 
return like 


hypo 十 p_correct 的 一 个 假设 值 ，data 为 比例 分 数 。 


为 了 简单 起 见 ， 原 始 分 数 就 是 正确 管 案 的 数量 ， 名 上 略 错 误 管 案 的 
如 分 (每 题 /4 分 )。 这 样 的 话 ， 似 然 度 由 计算 从 n 个 试题 中 得 到 k 个 正确 
回答 的 概率 的 二 项 分 布 给 出 。 


12.4 ”后 验 


图 12-2 显 示 了 在 爱丽 丝 和 鲍 动 分 数 基础 上 得 到 的 p_correct 的 后 
验 分 布 。 我 们 可 以 看 到 ， 它 们 重 车 在 一 起 ， 有 可 能 鲍 盈 的 p_correct 
更 高 ， 但 似乎 不 可 能 。 
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图 12-2 ”爱丽 丝 和 鲍 勃 的 p_correct 的 后 验 分 布 


我 们 回 到 原来 的 问题 ,“ 有 多 强 的 证 据 表 明 ， 爱 丽 丝 比 鲍 艺 准备 得 
更 好 ? ”我 们 可 以 用 p_correct 的 后 验 分 布 来 回答 这 个 问题 。 


要 以 贝 叶 斯 假设 检验 的 形式 定义 问题 ， 我 定义 了 两 个 假设 : 


。A: p_correct 上 ， 爱 丽 丝 高 于 鲍 勃 。 
。B: p_correct 上 ， 鲍 勃 高 于 爱丽 丝 。 


要 计算 A 的 似 然 度 ， 可 以 从 后 验 分 布 中 枚 举 所 有 数值 对 ， 再 素 加 得 
到 所 有 爱丽 丝 高 于 鲍 勃 的 p__correct 概率 总 和 ， 我 们 已 经 有 一 个 函数 
thinkbayes.PmfProbGreater 来 实现 它 。 


因此 ， 我 们 可 以 定义 一 个 计算 A 和 B 的 后 验 概 率 的 Suite 对 象 : 


class TopLevel(thinkbayes.Suite): 
def Update(self, data): 
a_sat, b_sat = data 


a_like thinkbayes.PmfProbGreater(a_sat, b_sat) 


b_like = thinkbayes.PmfProbLess(a_ sat, b_sat) 
= thinkbayes.PmfProbEqual(a_sat, b_sat) 


c_like 


a_like += c like / 2 
b_like += c_like / 2 


self.Mult('A', a_like) 
self.MuUlt('B', b_like) 


self.Normalize() 


通常 ， 当 我 们 定义 一 个 新 的 Suite 对 象 时 ， 会 继承 Update ， 并 
(根据 模型 ) 实现 LikelLihood 。 本 例 中 ， 则 需要 重 写 Update ， 
为 这 样 能 更 容易 同时 评价 两 种 假设 的 似 然 度 。 


传递 到 Update 的 数据 是 表示 了 p_correct 后 验 分 布 的 Sat 对 象 


a_like 是 爱丽 丝 较 高 的 p_correct 的 总 概率 ; b_1ike 是 鲍 勃 
较 高 的 p_correct 的 总 概率 。 


c_1ike 是 两 者 “相等 * 的 概率 ， 在 使 用 一 些 离散 值 为 p_correct 
建 模 的 情况 下 ， 这 种 相等 性 就 是 人 为 的 了 。 因 为 ， 如 果 我 们 使 用 更 多 
的 值 ，c_1like 会 较 小 ， 在 极端 情况 下 ， 如 果 p_correct 是 连续 的 ， 
c_1ike 为 零 。 所 以 我 将 c_1like 作为 一 种 舍 入 误差 并 且 在 a_like 和 
b_like 之 间 的 匀 去 。 


下 面 的 代码 创建 了 TopLevel 并 更 新 它 : 


exam = Exam() 
a_sat = Sat(exam, 780) 
b_sat = Sat(exam, 740) 


top = TopLevel('AB') 
top.Update((a_sat, b_sat)) 
top.Print() 


A 的 似 然 度 是 0.79，B 的 似 然 度 为 0.21。 似 然 比 ( 或 贝 叶 斯 因子 ) 为 
3.8， 这 意味 着 这 些 考试 成 绩 的 证 据 表 明 ， 在 SAT 成 绩 上 ， 爱 丽 丝 优 于 
鲍 莉 。 看 到 考试 成 绩 表 ， 如 采 我 们 相信 A 和 B 可 能 相等 ， 那 么 在 看 到 成 
绩 之 后 ， 我 们 应 该 相信 A 的 概率 是 7926 ， 这 意味 着 仍然 有 212% 的 可 能 ， 
鲍 狐 实际 准备 得 更 好 。 


12.5 一 个 更 好 的 模型 


请 记 住 ， 我 们 迄今 所 做 的 分 析 都 是 基于 所 有 SAT 问 题 是 同等 难度 的 
前 提 下 的 。 实 际 上 ， 有 些 题 比 其 他 题 要 容易 ， 这 意味 着 爱丽 丝 和 鲍 动 
之 间 的 老 异 可 能 会 更 小 。 


但 是 这 有 多 大 的 建 模 误差 ? 如 果 误 差 小 ， 我 们 可 以 得 出 第 一 个 模 
型 (同等 难度 ) 足够 好 的 结论 。 如 果 误 差 大 ， 就 需要 一 个 更 好 的 模 


型 。 


在 接 下 来 的 几 节 中 ， 我 们 开发 了 一 个 更 好 的 模型 ， 并 将 会 发 现 
( 剧 透 一 下 ) 建 模 误差 就 是 小 的 。 所 以 ， 如 果 你 满意 简化 模型 ， 可 以 
下 一 章 。 如 果 你 想 了 解 更 真实 的 模型 设计 过 程 ， 
往 下 看 .…… 


。 假设 每 个 测试 者 具有 一 定 程度 的 答题 效率 efficacy ， 答 题 效 率 
衡量 其 回答 SAT 问 题 的 能 力 。 

。 假定 每 个 问题 有 不 同 水 平 的 难度 difficulty。 

。 最 后 ， 假 设 一 个 测试 者 正确 回答 问题 的 机 会 与 答题 效率 efficacy 
和 难度 水 平 difficu1lty 相关 ， 并 由 下 面 函 数 决定 : 


def ProbCorrect(efficacy, difficulty, a=1): 
return 1 / (1 + math.exp(-a * (efficacy - difficulty))) 


此 函数 是 项 目 响应 理论 的 曲线 的 一 个 简化 版 本 ， 你 可 以 参考 
http://en.wikipedia.org/wiki/Item_response_theory 。 答题 效 率 和 难度 水 平 
基于 同一 刻度 水 平 ， 得 到 正确 答案 的 概率 就 只 取决 于 它们 之 间 的 差 


二 


当 efficacy 和 difficulty 相同 时 ， 正 确 的 回答 问题 的 概率 为 
50%。 当 efficacy 增加 ， 概 率 接 这 100%， 当 它 降低 (或 者 


diffiulty 增加 ) ， 概 率 接 近 0%。 


已 知 答题 者 在 效率 上 的 分 布 和 所 有 问题 难度 的 分 布 ， 我 们 束 可 以 
计算 原始 分 数 的 预期 分 布 。 我 们 将 通过 两 步 完成 。 首 先 ， 对 于 已 知 
efficacy 的 某 个 答题 者 ， 我 们 将 计算 原始 分 数 的 分 布 如 下 : 


def PmfCorrect(efficacy, difficulties): 
pmfO = thinkbayes.Pmf([0]) 


ps = [ProbCorrect(efficacy, diff) for diff in difficulties] 


pmfs = [BinaryPmf(p) for p in ps] 
dist = sum(pmfs, pmf0) 
return dist 


difficulties 是 难度 列表 ， 每 一 个 试题 对 应 一 个 难度 值 。ps 
为 概率 的 列表 ，pmfs 是 这 两 个 值 的 Pmf 对 象 列 表 。 下 面 是 对 应 的 创建 
函数 : 
def BinaryPmf(p) : 


pmf = thinkbayes.Pmf() 
pmf.,Set(1，p) 


pmf .Set(0, 1-p) 
return pmf 


dist 是 这 些 Pmfs 的 总 和 。 还 记得 40 页 当 我 们 添加 Pmf 对 象 时 的 “加 
数 ”"， 结 果 是 尽 和 的 分 布 。 为 了 使 用 Python 的 sum 函数 来 素 加 Pmfs， 我 
们 需要 提供 pmf9 作为 Pmfs 的 标识 ， 所 以 pmf + pmfg 就 等 于 pmf 
a 


如 琳 知 道 答题 者 的 效率 ， 我 们 可 以 计算 他 们 原始 分 数 的 分 布 。 对 
于 一 群 有 不 同 的 答题 效率 的 人 ， 所 产生 的 原始 分 数 的 分 布 是 混合 的 。 
下 面 是 计算 混合 分 布 的 代码 : 


# class Exam: 


def MakeRawScoreDist(self, efficacies): 
pmfs = thinkbayes.Pmf() 
for efficacy, prob in efficacies.Items(): 
scores = PmfCorrect(efficacy, self.difficulties) 
pmfs.Set(scores, prob) 
mix = thinkbayes.MakeMixture(pmfs) 


return mix 


MakeRawScoreDist 接收 efficacies ， 这 是 一 个 表示 所 有 答 

题 者 效率 分 布 的 Pmf 对 象 。 我 假设 它 是 均值 为 0， 标 准 偏差 1.5 的 高 斯 分 

布 。 这 一 假设 相当 主观 。 得 到 一 个 问题 的 正确 的 概率 取决 于 答题 效率 

1 ， 所 以 我 们 可 以 选择 效率 的 单位 ， 再 校准 相应 的 题 
难度 的 单位 。 


pmfs 是 包含 每 一 级 别 答题 效率 Pmf 的 一 个 元 Pmf ， 并 映射 到 同一 
级 别 的 测试 者 上 。MakeMixture 接收 元 Pmf 并 计算 混合 的 分 布 (参见 第 
45 页 上 的 “混合 分 布 ”)。 


12.6 ”校准 


如 果 我 们 难度 的 分 布 情况 ， 我 们 束 可 以 使 用 MakeRawScoreDist 
计算 原始 分 数 的 分 布 。 但 对 于 我 们 来 说 ， 问 题 是 类 似 的 其 他 方法 : 有 
原始 分 数 的 分 布 ， 要 推断 难度 的 分 布 。 假 设 难 度 的 分 布 是 带 有 参数 
center 和 width 的 均匀 分 布 ，MakeDifficulties 可 以 得 到 这 些 
参数 下 试题 难度 的 列表 。 


def MakeDifficulties(center, width, n): 
low, high = center-width, center+width 


return numpy.1linspace(low, high, n) 


通过 党 试 了 几 个 组 合 ， 我 发 现 ，center = -0.05 和 width = 1.8 得 
到 的 原始 分 数 分 布 类 似 于 实际 数据 ， 如 图 12-3 所 示 。 
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30 
原始 分 数 
图 12-3 “原始 分 数 的 实际 分 布 和 一 个 拟 合 它 的 模型 

因此 ， 假 设 难度 的 分 布 是 均匀 分 布 ， 其 范围 大 约 是 -1.85 至 1.75， 
答题 效率 是 均值 为 0， 标 准 偏差 1.5 的 高 斯 分 布 。 


下 表 显 示 了 不 同 效率 级 别 的 测试 者 ProbpCcorrect 的 范围 : 


难度 Difficulty) 


om oo 


60 


效率 为 3 的 答题 者 (两 个 标准 差 高 于 平均 值 ) 有 992% 的 机 会 答对 最 简 
单 的 问题 ，782% 的 机 会 答对 最 难 的 问题 。 在 区 间 的 另 一 器， 低 于 均值 
两 个 标准 偏差 的 答题 者 ， 只 有 24% 的 机 会 答对 最 简单 的 问题 。 


12.7 效率 的 后 验 分 布 


现在 ， 该 模型 已 经 被 校准 了 ， 我 们 可 以 为 爱丽 丝 和 鲍 动 计算 管 匮 
效率 的 后 验 分 布 。 下面 古 一 个 使 用 该 模型 的 Sat 类 的 新 版 本 : 


class Sat2(thinkbayes.Suite): 


def _ init (self, exam, score): 
self.exam = exam 
self.score = Score 


# start with the Gaussian prior 
efficacies = thinkbayes.MakeGaussianpmf(0, 1.5, 3) 
thinkbayes.Suite. init (self, efficacies) 


# update based on an exam score 
self.Update(score) 


Update 调用 Likelihood ， 这 计算 出 已 知 SAT 得 分 时 ， 答 题 者 假 
设 效 率 水 平 的 似 然 度 。 


def Likelihood(self, data, hypo): 
efficacy = hypo 
score = data 
raw = self.exam.Reverse(score) 


pmf = self.exam.PmfCorrect(efficacy) 
like = pmf.Prob(raw) 
return like 


pmf 是 已 知 效 率 的 答题 者 得 到 的 原始 得 分 的 分 布 ，1ike 是 观察 到 
分 数 的 概率 。 


图 12-4 显 示 了 爱丽 丝 和 鲍 动 效率 的 后 验 分 布 。 正 如 预期 的 那样 ， 爱 
丽 丝 的 分 布 位 置 更 还， 靠近 右边 ， 但 同样 有 一 些 重 登 部 分 。 


爱丽 丝 的 后 验 780 
鲍 勃 的 后 验 740 


CDF 


答题 效率 

图 12-4 爱丽 丝 和 鲍 勃 答题 效率 的 后 验 分 布 

再 次 使 用 TopLevel ， 我 们 比较 假设 A (爱丽 丝 效 率 更 高 的 假 
设 ) 和 假设 B ( 鲍 劲 效率 更 高 的 假设 ) 。 似 然 比 为 3.4， 比 我 们 从 简化 
模型 (3.8) 得 到 的 小 些 。 因 此 ， 这 个 模型 表明 ， 数 据 的 证 据 支 持 假设 A 
， 但 弱 于 之 前 的 舍 计 。 

如 琳 我 们 的 先 验 是 A 和 B 等 可 能 ， 那 么 参考 这 个 证 据 ， 我 们 会 给 假 
设 A772% 的 后 验 概率 ， 另 外 有 232 的 可 能 ， 鲍 勃 的 效率 更 高 。 


12.8 ”预测 分 布 


到 目前 为 目 我 们 所 做 的 分 析 佑 计 了 爱丽 丝 和 鲍 勃 的 效率 ， 但 由 于 
效率 是 无 法 直接 观察 到 的 所 以 难以 验证 结果 。 


”为 了 让 模型 有 预测 的 能 力 ， 可 以 用 它 来 回答 一 个 相关 的 问题 ，“ 如 
果 爱 丽 丝 和 鲍 勃 再 进行 一 次 SAT 数 学 测试 ， 爱 丽 丝 比 鲍 勃 得 分 高 的 可 能 
性 是 多 少 ? ， 

我 们 将 通 两 个 步 又 回答 这 个 问题 ， 

。 使 用 效率 的 后 验 分 布 来 生成 每 个 测试 接受 者 原始 得 分 的 后 验 分 

。 比 较 这 两 个 预测 分 布 ， 计 算 爱 丽 丝 得 到 更 高 分 数 的 概率 。 


我 们 已 经 有 了 大 部 分 需要 的 代码 。 为 了 计算 预测 分 布 ， 可 以 再 次 
使 用 MakeRawScore-Dist : 


exam = Exam() 
a_sat = Sat(exam, 780) 
b_sat = Sat(exam, 740) 


a_pred 
b_pred 


exam.MakeRawScoreDist(a_sat) 
exam.MakeRawScoreDist(b_sat) 


接着 ， 我 们 可 以 得 到 在 第 二 次 测验 中 爱丽 丝 比 鲍 勃 分 高 ， 鲍 勃 分 
高 ， 或 者 他 们 分 数 相 同 的 可 能 性 : 


thinkbayes.PmfProbGreater(a_pred, b_pred) 
thinkbayes.PmfProbLess(a_pred, b_pred) 


thinkbayes.PmfProbEqual(a_pred, b_pred) 


”爱丽 丝 在 第 二 次 测验 中 得 分 更 融 的 概率 是 63%， 这 意味 着 鲍 动 更 
高 分 的 概率 是 37% 。 


请 注意 ， 我 们 对 爱丽 丝 的 效率 更 有 信心 ， 高 于 下 一 次 测验 的 信 
心 。 爱 丽 丝 的 效率 较 高 的 后 验 赔 率 是 3:1， 但 在 下 一 个 测试 中 ， 爱 丽 丝 
更 好 的 赔 率 只 有 2:1。 


12.9 ”讨论 


我 们 以 问题 “爱丽 丝 比 鲍 勃 准 备 更 充分 的 证 所 有 多 强 ” 为 本 章 的 开 
始 ， 这 个 问题 表面 上 听 起 来 像 我 们 想 测 试 两 个 假设 要么 爱丽 丝 ， 要 
么 鲍 动 准备 得 更 好 。 


但 为 了 计算 这 些 假 设 的 似 然 度 ， 我 们 必须 解决 一 个 估计 问题 。 对 
于 每 个 参加 测试 者 ， 我 们 必须 找到 p_correct 或 efficacy 的 后 验 分 
和 


这 样 的 值 称 为 干扰 参数 ， 因 为 我 们 实际 上 不 关心 它们 是 什么 ， 但 
为 了 回答 所 关心 的 问题 必须 估计 这 些 量 。 


本 章 中 我 们 实现 可 视 化 分 析 结 果 的 方法 是 绘制 这 些 参数 的 空间 分 
布 。thinkbayes .MakeJoint 接收 两 个 Pmfs 对 象 ， 计 算 它们 的 联合 
分 布 ， 并 返回 每 个 可 能 的 值 和 概率 对 的 概率 密度 函数 。 


def MakeJoint(pmf1, pmf2): 
joint = Joint() 
for vi, pi in pmf1.Items(): 
for v2, p2 in pmf2.Items(): 


Joint.Set((vi, v2), pl1i * p2) 
return joint 


此 函数 假设 两 个 分 布 是 独立 的 。 


图 12-5 显 示 了 p_correct 《爱丽 丝 和 鲍 勃 ) 的 联合 后 验 分 布 。 空 
间 中 的 对 角 线 表示 爱丽 丝 和 鲍 动 的 p_correct 相同 的 情况 。 在 这 条 线 
的 右边 ， 说 明 爱 丽 丝 准 备 得 更 好 ; 左边 ， 说 明 鲍 勃 准备 得 更 好 。 


1.00 


U95 


0.90 


饮 过 的 p_correct 


0.85 


9.8080 0.85 0.90 0.95 1.00 
爱丽 丝 的 P_correct 


图 12-5 ”爱丽 丝 和 鲍 勒 p_correct 的 联合 后 验 分 布 
在 TopLevel.Update 中 ， 当 计算 A 和 B 的 似 然 性 时 ， 我 们 于 加 


了 这 条 线 两 侧 的 概率 质量 。 对 于 落 在 该 行 的 单元 格 ， 我 们 累加 A 和 B 之 
间 的 总 质量 ， 并 把 它 匀 到 A 和 B 中 。 


我 们 本 章 中 使 用 的 过 程 一 一 为 了 计算 两 个 互 不 假设 的 似 然 度 而 估 
计 干 扰 参数 一 一 是 一 种 单 见 的 解决 类 似 问 题 的 贝 叶 斯 方法 。 


第 13 章 ”模拟 


在 本 章 中 ， 我 描述 了 一 个 红肿 瘤 患 者 所 提问 题 的 解决 方案 。 我 认 
为 这 个 问题 对 于 叫 者 和 进行 医治 的 医生 来 说 都 是 重要 和 有 关系 的 。 


我 认为 它 很 有 趣 ， 因 为 这 虽然 古 一 个 贝 叶 斯 问题 ， 但 是 使 用 贝 叶 
斯 的 方式 却 是 隐 含 的 。 我 列 出 了 解法 和 代码 ， 在 本 章 结尾 ， 我 将 解释 
贝 叶 斯 的 部 分 。 


如 采 你 想 了 解 更 多 的 技术 细 方 ， 可 以 在 
http://arxiv.org/abs/1203.6890 阅读 我 有 天 这 项 工作 的 论文 。 


13.1 肾 肿 瘤 的 问题 


我 是 在 线 统计 论坛 http://reddit.com/r/statistics 的 起 实用 户 ， 也 侦 尔 
贡献 些 内 容 。2011 年 11 月 ， 我 在 那儿 读 到 了 以 下 消息 : 


“我 现在 处 于 第 IV 期 肾 癌 ， 想 确定 瘤 证 是 否 是 在 我 从 部 队 退 役 以 前 
就 形成 的 ..…. 提 供 退 伍 和 确诊 的 日 期 是 否 可 以 确定 有 50/50 的 可 能 我 是 
这 么 得 病 的 ? 是 否 有 可 能 确定 我 在 退伍 日 期 时 患 病 的 概率 是 多 少 ? 确 
诊 时 ， 我 的 肿瘤 为 15.5x15 厘 米 ，l| 级 。” 


我 联系 了 消 轧 的 作者 ， 并 获得 了 更 多 的 信息 ， 我 了 解 到 ， 如 采 肿 
瘤 * 可 能 而 非 不 是 "2 是 在 部 队 服 役 期 间 形 成 的 ， 退 伍 军 人 可 以 得 到 补 
偿 是 不 同 的 〈 除 其 他 因素 外 ) 。 


因为 肾 肿 瘤 生长 缓慢 ， 通 常 也 没有 什么 引发 的 钙 状 ， 可 以 有 时 并 
不 进行 治疗 。 但 医生 还 是 会 观察 肿瘤 ， 并 比较 同一 病人 示人 处 理 的 肿瘤 
在 不 同时 间 的 生长 速率 。 有 几 篇 论文 报导 了 这 些 生 长 率 。 


我 从 Zhang 2 的 论文 中 找到 了 一 些 数据 ， 并 且 联 系 了 作者 看 能 和 否 得 
到 原始 数据 。 不 过 他 们 以 患者 隐私 的 原则 回绝 了 。 不 过 我 还 是 能 够 给 
他 们 的 报告 数据 图 形 ， 再 按 规则 进行 测量 来 提取 出 我 需要 的 数 


他 们 以 倍增 时 间 增 长 率 倒 数 (RDT) 的 形式 报告 了 增长 率 ， 即 以 
倍增 体 / 每 年 的 形式 。 因 此 ，RDT =1 表 示 肿 瘤 每 年 增长 双 倍 体积 ，RDT 
Tm RDT =-1， 表 示 一 半 。 图 13-1 显 示 了 53 例 患者 RDT 
分 布 。 
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图 13-1 RDT (每 年 倍增 体积 ) 的 CDF 


方块 是 论文 上 的 数据 点 ;虚线 旦 我 融 数 据 拟 合 而 成 的 模型 。 该 线 


13.2 一 个 简化 模型 


在 尝试 更 有 挑战 性 的 东西 之 前 ， 采 用 简化 模型 一 般 是 不 错 的 。 对 
于 手 尖 的 一 些 问题 简化 模型 有 时 束 足 够 了 ， 而 且 如 琳 不 是 ， 你 还 可 以 


用 简化 模型 来 验证 更 复杂 的 模型 。 


我 的 简化 模型 是 : 认为 肿瘤 的 生长 具有 恒定 的 倍增 时 间 ， 而 且 肿 
人 即 如 果 每 一 维 长 度 测 量 值 翻 倍 ， 体 积 就 是 增长 八 倍 
2x2x2 二 8) 。 


我 从 案例 的 合作 者 解 到 ， 他 从 军队 退伍 到 诊断 日 是 3291 天 ( 约 9 
年 ) 。 所 以 ， 首 先 要 计算 的 就 是 “如 果 有 和 肿瘤 以 中 位 速率 增长 ， 那 么 它 在 
退伍 日 时 有 多 大 ? ” 


体积 倍增 时 间 的 中 位 数 ， 从 Zhang 的 报告 中 看 约 为 811 天 。 假 设 一 
个 三 维 几 何 体 ， 长 度 值 的 倍增 时 间 为 该 值 的 3 倍 。 


# time between discharge and diagnosis, in days 
interval = 3291.0 


# doubling time in linear measure is doubling time in volume * 3 
dt = 811.0 * 3 


# number of doublings since discharge 
doublings = interval / dt 


# how big was the tumor at time of discharge (diameter in cm) 
d1 = 15.5 
do0=d17/2.0** doublings 


你 可 以 从 http://thinkbayes.com/kidney.py 下 载 本 章 代 码 。 更 多 信 
， 请 参见 前 言 的 “代码 指南 ”。 


结 末 d0 约 6 厘米 。 因 此 ， 如 采 这 个 肿瘤 是 在 退伍 日 期 后 形成 的 ， 
它 必 须 以 大 幅 超过 平均 速度 的 速度 增长 。 因 此 ， 我 可 以 断言 肿瘤 是 “可 
能 而 非 不 是 ”在 退伍 前 形成 的 。 


此 外 ， 我 计算 的 增长 率 能 暗示 肿瘤 是 否 古 退伍 前 形成 的 。 如 琳 假 
设 其 初始 大 小 为 0.1 厘 米 ， 我 们 可 以 计算 出 达到 15.5 厘 米 最 终 尺寸 的 倍 


增 量 


ollly 


# assume an initial linear measure of 0.1 cm 
d0 = 0.1 
d1 = 15.5 


# how many doublings would it take to get from d0 to d1 
doublings = 1og2(d1 / d0) 


# what linear doubling time does that imply? 
dt = interval / doublings 


# Compute the volumetric doubling time and RDT 
vdt= dt/ 3 
rdt = 365 / vdt 


dt 是 线性 的 倍增 时 间 ， 所 以 vdt 是 体积 的 倍增 时 间 ，rdt 是 倒数 信 
增 时 间 。 


倍增 量 以 线性 长 度 衡量 是 7.3， 这 意味 着 RDT 是 2.4。 在 Zhang 等 人 
的 数据 中 ， 只 有 20% 的 肿瘤 在 观察 期 中 增长 这 人 么 快 。 


所 以 ， 再 一 次 ， 我 得 出 的 结论 十 “ 较 有 可 能 ”肿瘤 形成 于 退伍 前 。 


这 些 计 算 都 足以 回答 前 面 的 那个 问题 ， 我 代表 合作 者 给 退伍 军人 
福利 处 VBA 写 了 一 封 信 ， 解 释 我 的 结论 ， 后 来 我 还 将 结 采 告诉 了 我 的 
一 个 肿瘤 科 医 生 朋 友 。 他 对 Zhang 等 人 观察 到 的 肿瘤 增长 速度 和 生长 年 
挫 感 到 惊讶 。 他 指出 对 于 研究 人 员 和 医生 ， 这 一 结果 都 会 引起 关注 。 


但 是 为 了 让 模型 更 有 用 ， 我 想 要 找到 一 个 更 普遍 的 肿瘤 年 龄 和 大 
小 之 间 的 模型 。 
13.3 更 普 衣 的 模型 


己 知 肿瘤 在 诊断 时 的 大 小 ， 如 末 知 道 肿瘤 在 菏 一 个 给 定时 间 前 形 
成 的 概率 ， 即 肿瘤 年 龄 (生长 时 间 ) 的 分 布 是 最 有 用 的 。 


为 了 得 出 结论 ， 我 运行 了 模拟 肿瘤 生长 的 程序 ， 得 到 在 已 知 生长 
年 龄 的 条 件 时 ， 肿 瘤 大 小 的 分 布 。 然 后 我 们 可 以 用 贝 叶 斯 方法 得 到 已 
知 肿瘤 尺寸 条 件 时 的 年 龄 分 布 。 


1. 从 RDT 的 分 布 中 选取 一 个 增长 率 ; 


2. 在 每 个 区 间 的 结尾 计算 肿瘤 的 尺寸 ，; 
3. 记 采 在 每 个 时 间 间 隅 里 肿瘤 的 尺寸 ; 
4. 重复 ， 直 到 肿瘤 超过 最 大 的 相应 尺寸 。 


对 于 初始 尺寸 ， 我 选取 了 0.3 厘 米 ， 因 为 比 这 小 的 肿瘤 不 太 可 能 有 
侵入 性 以 及 快速 增长 所 需 的 血液 供应 〈 见 


http://en.wikipedia.org/wiki/Carcinoma_in_situ) 。 


我 选择 了 245 天 ( 约 8 个 月 ) 的 区 间 ， 因 为 这 是 数据 源 中 测量 对 象 
的 平均 时 间 。 


最 大 尺寸 我 选择 了 20 厘 米 ， 在 数据 源 中 ， 观 察 肿瘤 的 尺寸 范围 症 
1.0~ 全 12.0 厘 米 ， 所 以 可 以 推断 这 超出 了 观测 范围 的 两 器 ， 但 不 多 ， 而 
且 不 太 可 能 对 结果 有 显著 影响 。 

仿真 基于 一 个 较 大 的 简化 : 增长 率 设置 为 在 每 个 区 间 内 是 独立 互 
\ 影 响 的 ， 因 此 筷 不 依赖 于 年 龄 、 大 小 ， 或 前 一 个 区 间 的 生长 速率 。 

在 第 135 页 的 “序列 相关 性 ?中 ， 我 回顾 评估 了 这 些 假 设 并 考虑 了 更 
加 详细 的 模型 。 不 过 我 们 首先 来 看 一 些 例子 。 


图 13-2 显 示 了 模拟 的 肿瘤 尺寸 函数 图形) ， 以 年 龄 作为 变量 。10 
厘米 处 的 虚线 显示 了 肿瘤 在 该 尺寸 的 年 龄 范围 ， 增 长 最 快 的 肿瘤 为 8 
年 ， 最 慢 的 超过 35 年 。 
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肿瘤 增长 模拟 


(以 厘米 计 ， 对 数 刻 度 ) 


肿瘤 直 和 


0 5 10 25 30 35 40 


1]5 20 
肿瘤 年 龄 (生长 时 间 ) 
图 13-2 ”肿瘤 增长 的 模拟 时 间 和 大 小 


我 用 线性 测度 展示 出 结果 ， 但 计算 实际 上 是 依据 体积 进行 的 。 同 
样 ， 为 了 从 一 个 转换 到 男 一 个 ， 我 以 给 定 的 直径 来 表示 球体 的 体积 。 


13.4 ”实现 
下 面 是 这 一 模拟 的 核心 代码 : 


def MakeSequence(rdt_seq, vO=0.01, interval=0.67, 
vmax=Volume(20.0)): 

seq = vo, 

age = 0 


for rdt in rdt_sedqd : 
age += Interval 
final, seq = ExtendSequence(age, seq, rdt, interval) 


if final > vmax: 
break 


return sed 


rdt_seq 是 从 增长 率 CDF 产生 随机 数 的 迭代 器 。vg 是 以 毫升 
(mL) 表示 的 初始 体积 。interval 是 以 年 计 的 时 间 间 隔 。vmax 是 
对 应 20 厘 米 长 度 的 最 终 体积 。 


Volume 把 长 度 测 量 的 厘米 (cm) 数 转化 为 毫升 (mL) 体积 ， 基 
于 该 肿瘤 是 一 个 简化 球体 这 个 前 提 条 件 : 


def Volume(diameter, factor=4*math.pi/3): 
return factor * (diameter/2.0)**3 


ExtendSequence 在 时 间 间 隔 结 束 时 计算 肿瘤 的 体积 。 


ExtendSequence(age, seq, rdt, interval): 
Initial = seq[-1] 

doublings = rdt * interval 

final = initial * 2**doublings 


new_seq = seq + (final,) 
cache.Add(age, new_seq, rdt) 


return final, new_seq 


age 是 肿瘤 在 间隔 区 间 结 束 时 的 生长 年 龄 。seq 是 一 个 包含 当前 
体积 的 元 组 。rdt 是 间 隅 期 间 的 增长 率 ， 每 年 倍增 。interval 十 以 
年 计 的 时 间 步 长 。 


返回 值 final 是 肿瘤 在 时 间 间 隔 结束 时 的 体积 ， 而 new_seq 是 一 
个 新 的 含有 seq 加 上 新 算出 的 体积 final 的 元 组 。 


Cache .Add 在 每 个 时 间 间 隔 的 末尾 记 孙 每 个 肿瘤 的 年 龄 和 尺寸 ， 
下 面 会 进行 解释 。 


13.5 ”缓存 联合 分 布 


以 下 是 cache 的 功能 。 


class Cache(object ) : 


def _ init (self) : 
self.joint = thinkbayes.Joint() 


joint 是 一 个 记录 每 个 年 龄 -尺寸 对 频率 的 联合 Pmf 对 象 ， 所 以 它 
近似 于 年 龄 和 大 小 的 联合 分 布 。 


在 每 个 模拟 间隔 结束 时 ，ExtendSequence 调用 Add : 


# class Cache 


def Add(self, age, seq): 
final = seq[-1] 


cm = Diameter (final) 
bucket = round(CmToBucket (cm)) 
self.joint.Incr((age, bucket)) 


同样 ，age 为 肿瘤 的 年 龄 ，sed 是 肿瘤 目前 体积 的 值 序列 。 


添加 痢 数 据 到 联合 分 布 前 ， 我 们 用 Diameter 将 体积 转换 到 直 
径 ， 以 厘米 为 单位 : 


def Diameter(volume, factor=3/math.pi/4, exp=1/3.0): 
return 2 * (factor * volume) ** exp 


CmToBucket 将 厘米 转换 到 一 个 离散 的 量 bucket: 


def CmToBucket(x, factor=10): 
return factor * math.1log(x) 


buckets 等 间隔 分 布 于 对 数 标 度 。 利 用 factor = 10 得 出 一 个 合理 的 
buckets 数 量 ， 例 如 ，1 厘 米 映射 到 bucket 0，10 厘 米 映射 到 bucket 23 鱼 


运行 模拟 后 ， 我 们 就 可 以 绘制 联合 分 布 的 伪 彩 图 ， 其 中 每 个 单元 


格 代表 在 给 定 的 大 小 一 年 龄 对 观察 到 的 肿瘤 的 数目 。 
图 13-3 显 示 了 1000 次 模拟 后 的 联合 分 
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肿瘤 直径 (以 厘米 计 ， 对 数 刻 度 ) 


0 5 10 15 20 25 30 35 40 
肿瘤 生长 时 间 (以 年 计 ) 


图 13-3 ”肿瘤 大 小 和 年 龄 的 联合 分 布 


13.6 ”条 件 分 布 


通过 从 联合 分 布 取 垂 直 切 片 ， 我 们 可 以 得 到 对 于 任何 给 定年 龄 的 
大 小 分 布 。 通 过 做 一 份 水 平 切 片 ， 我 们 可 以 得 到 给 定 太 才 的 年 龄 


站 下 面 是 对 于 一 个 给 定 的 大 小 读 取 联 合 分 布 ， 并 建立 条 件 分 布 的 代 


# class Cache 


def ConditionalCcdf(self, bucket): 
pmf = self.joint.Conditional(0, 1, bucket) 


cdf = pmf.MakeCdf() 
return cdf 


bucket 是 对 应 于 肿瘤 大 小 的 整数 值 。Joint .Conditional 计 
算 给 定 pucket 值 下 年 龄 的 PMF。 其 结果 是 给 定 bucket 下 年 龄 的 
CDE。 


图 13-4 显 示 了 这 样 几 个 在 不 同 大 小 下 的 CDF。 总 结 这 些 分 布 ， 我 们 
可 以 计算 出 不 同 大 小 画 数 下 的 百 分 位 数 。 
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肿瘤 生长 时 间 (以 年 计 ) 


图 13-4 ”给 定 大 小 条 件 下 ， 肿 瘤 生长 年 龄 的 分 布 


percentiles = [95, 75, 50, 25, 5] 


for bucket in cache.GetBuckets(): 


cdf = ConditionalCdf (bucket) 
ps = [cdf.Percentile(p) for p in percentiles] 


图 13-5 显 示 了 每 个 大 小 区 间 的 这 些 百 分 位 数 。 数 据点 从 售 计 的 联合 
分 布 中 计算 得 到 。 在 该 模型 中 大 小 和 时 间 是 离散 的 ， 这 产生 了 数值 误 
莽 ， 所 以 我 也 展示 了 就 每 个 百 分 位 数 序列 的 最 小 二 乘 拟 合 曲线 。 


年 龄 对 直径 的 置信 区 间 (95、75、50 和 25、5 百 分 位 数 序列 的 拟 合 直线 ) 
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图 13-5 ”肿瘤 的 年 龄 作为 大 小 的 函数 的 百 分 位 数 


13.7 ”序列 相关 性 


到 目前 为 止 ， 得 到 的 结果 都 是 基于 多 项 建 模 决定 的 ， 让 我 们 回顾 
一 下 这 些 建 模 ， 看 看 哪些 是 误差 最 有 可 能 的 来 源 。 


。 要 转换 线性 测量 到 体积 ， 我 们 假设 肿瘤 近似 于 球形 。 这 个 假设 对 
于 几 厘 米 的 肿瘤 很 合适 ， 对 非常 大 的 肿瘤 却 不 行 。 
在 模拟 过 程 中 ， 增 长 率 的 分 布 是 基于 一 个 我 们 选择 的 和 Zhang 所 报 
导数 据 拟 合 的 连续 模型 ， 数 据 基于 53 名 上 患 者。 该 拟 合 只 是 近似 
的 ， 更 重要 的 是 ， 大 一 些 的 样本 可 能 产生 不 同 的 分 布 。 
生长 模型 没有 考虑 肿瘤 亚 型 或 等 级 。 这 一 假设 是 为 了 与 Zhang 等 人 
的 结论 保持 一 致 : “不 同 大 小 、 子 类 型 和 等 级 上 肾 肿瘤 的 增长 率 构成 
了 一 个 广 沁 的 范围 并 且 实 际 上 重合 了 在 一 起 了 。” 但 是 在 大 的 样本 
量 下 ， 它 们 之 间 的 差异 可 能 会 变 得 更 明显 。 
生长 速率 的 分 布 不 依赖 于 肿瘤 的 大 小 。 对 于 非 第 小 和 非常 大 的 肿 
瘤 ， 这 一 假设 是 不 从 合 实际 的 ， 增 长 是 由 血液 供应 所 限制 的 。 
但 Zhang 等 人 观测 的 肿瘤 大 小 为 1-12 厘 米 ， 而 他 们 没有 发 现 大 小 和 
增长 速度 之 间 的 统计 性 显著 关系 。 所 以 如 采 实 际 上 关联 存在 ， 它 至 少 
在 这 个 太 才 范围 内 很 可 能 只 下 弱 的 (译注 : 表示 没有 关联 ) 。 
。 在 仿真 中 ， 每 个 间隔 期 间 的 增长 速率 是 独立 于 之 前 间隔 的 增长 率 
的 。 实 际 上 这 是 似是而非 的 ， 迅 速 增长 过 了 的 肿瘤 更 可 能 (在 下 一 
个 间隔 ) 继 续 快速 增长 。 换 句 话说 ， 增 长 速率 可 能 前 后 相关 。 


其 中 ， 第 一 个 和 最 后 一 个 似乎 最 有 问题 首先 调查 下 前 后 相关 
性 ， 再 回 过 头 来 考虑 球面 几何 因素 。 


为 了 模拟 有 相关 性 的 肿瘤 生长 ， 我 写 了 一 个 generator  ， 能 够 从 
一 个 给 定 的 Cdf 产 生 一 个 相关 系列 。 下 面 是 该 算法 的 工作 原理 。 


1， 从 高 斯 分 布 生成 相关 值 。 这 很 容易 ， 因 为 我 们 能 以 前 一 值 为 条 
件 计算 下 一 值 的 分 布 。 


2， 利 用 高 斯 CDF， 将 每 个 值 转换 为 其 累积 概率 。 
3， 通 过 给 定 Cdf， 将 累积 概率 转换 为 相应 值 。 
代码 如 下 : 


def CorrelatedGenerator(cdf, rho): 
x = random.gauss(0, 1) 
yield Transform(x) 


sigma = math.sqrt(1 - rho**2); 


while True: 
x = random.gauss(x * rho, sigma) 
yield Transform(x) 


cdf 是 所 需 的 Cdf ; rho 是 所 求 的 相关 性 因子 ，x 是 高 斯 值 ; 
Transform 再 把 它们 转换 成 所 需 的 分 布 。 


x 的 第 一 个 值 是 均值 为 0， 标 准 偏 莽 为 1 的 高 斯 值 。 对 于 后 续 值 ， 
平均 值 和 标准 偏差 依赖 于 先前 的 值 。 给 定 上 一 个 x ， 下 一 个 值 的 平均 值 
为 x * rho ， 方 其 为 1 - rho**2 。 


Transform 从 每 个 高 斯 值 x 映射 到 一 个 给 定 Cdf 的 值 y 。 


def Transform(x): 
p = thinkbayes.GaussianCdf (x) 
y = cdf.Value(p) 


return y 


Gaussiancdf 计算 在 x 上 标准 高 斯 分 布 的 CDF， 返 回 累积 概率 。 
Cdf .Value 从 累积 概率 映射 到 cdf 的 对 应 值 。 


根据 cdf 的 形状 ,信息 可 能 会 在 转换 中 遗失 ， 所 以 实际 相关 性 可 
能 比 rho 更 低 。 例 如 ， 当 我 从 rho = 0.4 的 增长 率 产 生 10000 个 值 ， 实 际 
相关 性 为 0.37。 但 是 ， 由 于 我 们 只 十 在 对 正确 的 关系 量 进行 猜测 ， 这 如 
足够 接近 实际 了 。 


请 记 住 ，MakeSequence 需要 以 一 个 迭代 髓 作为 参数 。 该 接口 允 
许 以 不 同 的 生成 器 作为 参数 : 


iterator = UncorrelatedGenerator(cdf ) 
seq1 = MakeSequence(iterator) 


iterator = CorrelatedGenerator(cdf, rho) 
seq2 = MakeSequence(iterator) 


在 这 个 例子 中 ，seq1l 和 seq2 从 同一 分 布 取得 ， 但 seq1 中 的 值 
是 不 相关 的 ， 而 seq2 的 值 以 近似 于 rho 的 系数 相关 。 


现在 ， 我 们 可 以 看 到 序列 相关 性 对 结果 产生 的 效果 。 下 面 的 表 显 


示 了 一 个 6 厘米 的 肿瘤 的 年 龄 百 分 位 数 ， 分 别 采 用 了 不 相关 的 生成 器 和 
有 相关 性 p =0.4 的 生成 器 。 
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相关 性 使 得 增长 最 快 的 肿瘤 更 快 ， 最 慢 的 速度 更 慢 ， 所 以 年 龄 的 
范围 整 越 完 。 不 同 的 是 它 对 于 低 百 分 位 数 是 适中 的 ， 但 对 于 第 95 百 分 
位 束 是 6 年 多 。 为 了 精确 计算 这 些 百 分 位 数 ， 我 们 需要 一 个 更 好 的 实际 
前 后 相关 性 的 估计 。 


然而 ， 这 种 模式 就 足以 回答 我 们 开始 的 问题 ， 给 定 一 个 长 度 尺 十 
苹 15.5 厘 米 的 肿瘤 ， 它 形成 了 8 年 以 上 的 概率 是 多 少 ? 


下 面 是 代码 : 


# class Cache 


def ProbOlder(self, cm, age): 
bucket = CmToBucket (cm) 


cdf = self.ConditionalCdf (bucket) 
p = cdf.Prob(age) 
return 1-p 


cm 是 肿瘤 的 大 小 ，age 是 以 年 计 的 阐 值 。Prob0Older 转换 大 小 
到 bucket 数 ， 得 到 给 定 bucket 下 的 年 龄 的 Cdf ， 并 计算 这 个 年 龄 超过 给 
定 值 的 概率 。 


生长 没有 前 后 相关 性 的 条 件 下 ， 一 个 15.5 厘 米 肿瘤 的 年 龄 是 8 岁 以 
上 的 概率 是 0.999 ， 几 乎 确切 无 颖 了 。 相 关 为 0.4 的 前 提 下 ， 即 一 个 更 快 
生长 的 肿瘤 ， 概 率 仍 然 是 0.995。 即 使 相关 性 为 0.8， 概 率 还 是 0.978 。 


误差 的 另 一 个 可 能 来 源 就 是 假设 肿瘤 近似 于 球形 。 对 于 一 个 长 度 
尺寸 为 15.5 x15 厘 米 的 肿瘤 ， 这 种 假设 可 能 不 合适 。 如 采 合 适 ， 束 好 像 
征 说 ， 如 有 宁 这 个 矿 才 的 肿瘤 是 相对 平坦 的 ， 应 该 和 半径 6 厘米 球体 的 肿 
瘤 具 有 相同 的 体积 。 即 使 考虑 到 更 小 的 体积 和 相关 性 0.8， 年 龄 大 于 8 的 
可 能 性 仍然 是 952%6 。 


. 人 即使 考虑 到 建 模 误差 ， 这 么 大 的 肿瘤 形成 不 到 8 年 也 是 不 可 
能 的 。 


13.8 讨论 


好 了 ， 我 们 一 整 章 都 没有 使 用 贝 叶 斯 定理 或 封装 了 贝 叶 斯 更 新 的 
Suite 类 。 怎 么 回 事 ? 


理解 贝 叶 斯 定理 的 一 种 方法 是 将 其 作为 反 向 得 到 条 件 概 率 的 一 个 
算法 。 给 定 p (B|A ) ， 只 要 我 们 知道 p (A) 和 p (B) ， 就 可 以 计算 p 
(AIB) 。 当 然 只 有 在 计算 p (BA) 比 p (A418B) 容易 的 情况 下 ， 该 算 
法 才 是 有 用 的 〈 由 于 某 些 原因 ) 。 


在 这 个 例子 中 ， 通 过 运行 仿真 ， 我 们 可 以 估算 已 知 年 龄 条 件 时 大 
才 的 分 布 ， 或 p (尺寸 年龄。 但 已 知 尺 寸 时 年 龄 的 分 布 ， 即 p (年 龄 | 
尺寸 ) 是 很 难得 到 的 。 因 此 ， 这 似乎 是 一 个 绝 好 的 应 用 贝 叶 斯 定理 的 


la 


我 没有 这 么 做 的 原因 是 计算 效率 。 要 估计 对 于 任何 给 定 尺 寸 的 p 
(尺寸 年龄) ， 你 必须 运行 相当 量 的 模拟 。 最 后 ， 你 要 在 很 大 范围 的 
尺寸 区 间 来 计算 p 〈 尺 十 年龄 ) 。 事 实 上， 你 最 终 将 计算 整个 尺寸 和 年 
龄 的 联合 分 布 p 《尺寸 ， 年 龄 ) 。 

而 一 旦 得 到 联合 分 布 ， 就 的 确 不 需要 贝 叶 斯 定理 了 ， 你 可 以 通过 
切片 从 联合 分 布 提取 p 〈 年 龄 | 尺寸 ) ， 这 已 经 在 Conditionalcdf 中 

所 以 ， 我 们 是 绕 过 了 贝 叶 斯 ， 但 我 们 与 他 精神 同 在 。 


@ 此 处 原文 是 more likely than not， 也 可 以 意译 为 可 能 ， 考 虑 案例 的 特 
殊 性 ， 应 该 和 法 律 严 谨 行 文 上 有 天， 所 以 直译 。 


@ Zhang 等 .利用 一 系列 容积 CT 测量 法 确定 肾 肿 瘤 的 生长 速率 分 布 
[| .放射 学 2009，1 (250 页 ) 137-144 。 


@ 译 者 注 : bucket 直 译 不 恰当 ， 保 留 原 文 。 


@ 如 果 你 对 Python generator 不 熟悉 ， 请 参见 
http://wiki.python.org/moin/Generators 。 


第 14 章 ”层次 化 模型 
14.1 ” 盖 革 计数 器 问题 


我 是 从 淘 姆 .坎贝尔 -里 基 次 那儿 知道 下 面 这 个 问题 的 ， 他 是 “最 大 
人 ” 博 客 http:/maximum-entropy-blog.blogspot.com 的 作者 。 而 他 是 从 经 
典 的 《概率 论 : 科学 的 逻辑 》 的 作者 E.T. 杰 恩 斯 那儿 知道 这 个 问题 的 : 
假设 一 个 放射 源 ， 以 平均 每 秘 r 个 粒子 的 速度 向 一 个 盖 革 计数 
俘 发 射 粒子 ， 但 计数 髓 只 能 记录 击 中 它 的 粒子 的 一 部 分 ， 一 个 分 
数 f ， 如 果 f 为 10% 而 且 计 数 姻 在 1 秒 的 时 间 内 记录 了 15 个 粒子 ， 那 
么 交 子 击 中 计数 妖 的 实际 数量 n 的 后 验 分 布 是 什么 ? 粒子 平均 发 射 
速率 r 的 后 验 分 布 是 什么 ? 


要 解决 这 样 一 个 问题 ， 我 们 要 考虑 系统 以 这 些 参数 为 开始 ， 以 观 
测 到 的 数据 为 结束 之 间 的 关系 链 : 


1. 放射 源 以 平均 速率 r 发 射 粒子 。 
2. 在 任何 给 定 的 1 秒 内 ， 放 射 源 回 计 数 郁 发 射 了 m 个 粒子 。 
3. nm 个 粒子 中 ， 只 有 其 中 K 个 被 记录 下 来 。 


原子 衰变 的 概率 在 任何 时 间 都 是 相同 的 ， 所 以 放射 性 聚变 可 以 很 
好 建 模 为 一 个 泊 松 过 程 。 已 知 r"， 则 n 的 分 布 是 参数 为 r 的 泊 松 分 布 。 


并 且 如 果 我 们 假设 检测 到 每 个 粒子 的 概率 是 独立 的 ，k 的 分 布 即 是 
参数 为 n 和 f 的 二 项 分 布 。 


给 定 系 统 的 参数 ， 可 以 求 得 数据 的 分 布 。 所 以 我 们 可 以 用 所 谓 的 
正 向 问题 (直接 思路 来 解决 。 


现在 ， 我 们 希望 用 另 一 个 方法 : 已 知 数据 ， 求 得 参数 的 分 布 。 这 


就 是 所 谓 的 逆向 问题 。 如 果 能 解决 正 向 问题 ， 你 就 可 以 使 用 贝 叶 斯 方 
法 来 解决 逆向 问题 。 


14.2 ”从 简单 的 开始 


让 我 们 从 问题 的 一 个 简单 的 版 本 一 一 已 知 r 值 一 一 开始 。 给 定 f 的 
值 ， 所 以 要 做 的 束 是 售 计 n 。 


我 定义 了 一 个 名 为 Detector 的 Suite 对 象 ， 对 检测 器 建 模 并 估算 n 


class Detector(thinkbayes.Suite): 


def _ init (self, r, f, high=500, step=1): 


pmf = thinkbayes.MakePoissonpmf(r, high, step=step) 
thinkbayes. Suite. init (self, pmf, name=r) 

self.r =r 

self.f = f 


如 有 条 平 均 发 射 速 率 为 每 秒 r 个 粒子 ， 则 nm 的 分 布 是 参数 为 r 的 泊 松 
分 布 。high 和 step 定义 为 n 的 上 界 和 假设 值 的 步 长 大 小 。 


现在 我 们 需要 一 个 似 然 函 数 : 
# class Detector 
def Likelihood(self, data, hypo): 
k = data 


n hypo 
p self.f 


return thinkbayes.EvalBinomialPpPmf(k, n, p) 


data 是 检测 到 的 粒子 数量 ，hypo 是 发 射出 的 粒子 的 假设 数量 。 


如 果实 际 上 有 nm 个 粒子 ， 并 且 检 测 到 它们 中 的 任何 一 个 的 概率 为 f 
， 则 检测 到 k 个 粒子 的 概率 由 二 项 分 布 给 出 。 


这 束 是 检测 器 对 象 了 。 我 们 可 以 试 着 求 出 r 值 的 范围 : 


f 
k 


Dd 


for r in [100, 250, 400]: 
suite = Detector(r, f, step=1) 
suite.Update(k) 
print suite.MaximumLikelihood() 


图 14-1 显 示 了 n 对 于 几 个 给 定 r 值 的 后 验 分 布 。 


0 100 200 300 100 500 
粒子 数量 “7 ) 


图 14-1 3 个 不 同 r 值 下 n 的 后 验 分 布 。 
14.3 ”分 层 模 型 
在 上 一 节 中 ， 我 们 假设 "为 已 知 的 。 现 在 ， 让 我 们 放松 这 一 假设 。 


我 定义 了 男 一 个 Suite 对 象 ， 称 为 Emitter ， 即 对 发 射 器 建 模 并 估计 r 
的 施 围 : 


class Emitter(thinkbayes.Suite): 


def _ init (self, rs, f=0.1): 
detectors = [Detector(r, f) for r in rs] 
thinkbayes.Suite. init (self, detectors) 


rs 是 r 假设 值 的 序列 。detectors 是 检测 器 对 象 的 序列 ， 每 一 个 
对 应 于 一 个 r 值 。 对 象 中 就 是 检测 器 的 每 个 值 ， 所 以 Emitter 是 一 个 元 
Suite 对 象 ， 也 就 是 说 ， 它 是 以 其 他 Suite 对 象 为 值 的 Suite 对 象 。 


要 更 新 Emitter， 我 们 必须 计算 每 个 r 的 假设 值 下 的 数据 的 似 然 度 。 
但 r 的 各 值 是 由 一 个 包含 了 n 值 范围 的 检测 器 对 象 表示 的 。 


要 计算 对 于 给 定 的 检测 器 下 数据 的 似 然 度 ， 我 们 通过 循环 n 的 所 有 
值 ， 然 后 累加 k 的 总 概率 。SuiteLikelihood 实现 这 个 功能 : 


# class Detector 


def SuiteLikelihood(self, data): 
total = 0 
for hypo, prob in self.Items(): 
like = self.Likelihood(data, hypo) 
total += prob * like 
return total 


现在 我 们 可 以 写 出 发 射 器 的 似 然 画 数 : 
# class Detector 


def Likelihood(self, data, hypo): 
detector = hypo 


like = detector.SuiteLikelihood(data) 
return like 


每 一 个 hypo 是 一 个 检测 器 ， 所 以 我 们 可 以 调用 
SuiteLikelihood 得 到 假设 下 数据 的 似 然 度 。 


更 新 了 发 射 硕 后 ， 我 们 也 必须 更 新 每 个 探测 吉 。 


# class Detector 
def Update(self, data): 


thinkbayes.Suite.Update(self, data) 


for detector in self.Values(): 
detector.Update() 


像 这 样 有 多 层 Suite 对 象 的 模型 被 称 为 分 层 模型 。 
14.4 ”一 个 小 优化 


你 也 许 对 SuiteLikelihood 有 印象 ;我 们 在 第 110 页 “来 一 个 公 


平 的 对 比 * 中 见 过 它 。 当 时 我 指出 我 们 并 不 真 的 需要 它 ， 因 为 由 
SuiteLikelihood 计算 的 总 概率 是 由 Update 计算 并 返回 的 归 一 化 
常数 。 

所 以 ,不 用 先 更 狐 发 射 器 ， 再 更 新 探测 器 ， 我 们 其 实 可 以 同时 完 
成 这 两 步 ， 使 用 从 Detector .Update 得 到 的 结果 作为 发 射 器 的 似 然 
度 o 

下 面 是 Emitter .Likelihood 的 精简 版 : 


# class Emitter 


def Likelihood(self, data, hypo): 


return hypo.Update(data) 


以 这 个 版 本 的 Likelihood ， 我 们 惑 可 以 使 用 Update 的 默认 版 
本 。 I 而 且 因为 它 不 用 计算 归 一 化 第 量 两 次 ， 所 以 运 
行 得 更 快 * 


14.5 ”抽取 后 验 


et 发 射 器 后 ， 我 们 可 以 通过 循环 探测 更 和 其 概率 得 到 r 的 后 验 
思 : 


# class Emitter 


def DistOfR(self): 
items = [(detector.r, prob) for detector, prob in 


self.Items( )] 
return thinkbayes.MakePmfFromItems(Items ) 


items 为 r 的 值 及 其 概率 的 列表 。 其 结果 是 r 的 Pmf 。 

为 了 得 到 n 的 后 验 分 布 ， 我 们 必须 计算 出 探测 器 的 混合 分 布 。 我 们 
可 以 使 用 thinkbayes .MakeMixture ， 它 接收 映射 每 个 分 布 和 其 概 
率 的 元 Pmf。 这 实际 上 也 就 是 发 射 器 : 


# class Emitter 


def DistOfN(self): 


return thinkbayes.MakeMixture(self) 


图 14-2 显 示 了 结果 。 毫 不 奇怪 ，n 最 可 能 的 值 是 150。 已 知 f 和 n ， 
则 预计 数 为 k = fn ， 所 以 给 定 F 和 K ，n 的 期 望 值 为 Kf。 也 就 是 150 。 
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图 14-2 mn 和 r 的 后 验 分 布 


如 果 150 个 粒子 在 1 秒 内 被 发 射 ，r 的 最 可 能 的 值 是 每 秒 150 个 粒 
子 。 因 此 r 的 后 验 分 布 也 集中 在 150 附 近 。 


r 的 后 验 分 布 和 n 是 相似 的 ， 唯 一 的 区 别 是 ， 我 们 对 于 n 稍 不 确 
定 。 一 般 来 说 ， 我 们 对 于 较 长 时 间 范 围 的 发 射 率 r 更 确定 ， 但 对 于 任意 
1 秒 内 的 粒子 发 射 数 量 n 却 不 是 那么 确定 。 


你 可 以 从 http:Mpinkbayes.comyjiaynes.py 下 载 本 章 代 码 。 更 多 信 
轧 ， 请 参见 前 言 的 “代码 指南 ”。 


14.6 ”讨论 


善 革 计数 器 问题 表明 因果 关系 和 分 层 模 型 之 间 的 联系 。 在 该 示例 
中 ， 发 射 率 r 对 粒子 数 n 有 因果 效应 ， 而 n 对 粒子 计数 量 K 有 因 采 效应 。 


a 分 层 模型 反映 了 系统 的 结构 ， 在 顶部 产生 影响 ， 于 底部 得 到 效 


1. 在 顶层 ,我们 以 r 的 一 系列 假设 值 开 始 。 


旺 对 每 一 个 r 的 值 ， 我 们 有 一 个 n 的 值 的 范围 ， 这 取决 于 n 的 先 验 
分 布 。 


3， 当 更 新 模型 时 ， 我 们 自 下 而 上 。 对 于 每 个 值 计算 n 的 后 验 分 
布 ， 然 后 计算 r 的 后 验 分 布 。 所 以 因果 信息 沿 着 层次 结构 由 上 至 下 ， 而 
推断 过 程 自 底 向 上 。 
14.7 练习 

练习 14-1。 

这 项 工作 也 是 受到 杰 因 斯 《概率 论 》 书 中 一 个 例子 的 启发 。 


假设 你 买 了 一 个 预期 能 降低 家 里 附近 蚊虫 数量 的 捕 蚁 此 。 每 周 你 
都 清空 这 个 陷阱 ， 计 算 抓 获 的 蚊虫 数量 。 第 一 个 星期 后 捉 到 30 只 蚊 


子 。 第 二 个 星期 后 捉 到 20 只 蚊子 。 那 么 请 们 计 你 的 院子 里 蚊子 数量 的 
百分比 变化 。 


要 回答 这 个 问题 ， 必 须 做 出 一 些 建 模 的 决定 。 这 里 有 一 些 建议 如 
下 


。 假 设 每 个 星期 有 大 量 蚊子 N 在 你 家 附近 的 湿地 生存 。 
。 一 周 之 内 ，N 中 一 部 分 f1 进入 你 的 院子 里 ，f 1 中 一 部 分 f, 落 入 陷 


阱 。 
。 在 你 的 方法 中 ， 要 考虑 到 “N 逐 周 可 能 的 变化 量 ” 的 先 验 观点 ， 可 以 
通过 在 分 层 模型 中 增加 一 个 层次 来 对 N 变化 的 百分比 建 模 。 


第 15 章 ”处 理 多 维 问题 
15.1 脐 部 细菌 


肚脐 生物 多 样 性 2.0 (BBB2) 项 目 是 一 个 全 国 性 的 民间 科学 项 目 ， 
旨 在 识别 可 以 在 人 类 肚脐 上 找到 的 细 戎 种 类 ( 
http://bbdata.yourwildlife.org ) 。 该 项 目 似乎 异想天开 ， 但 它 是 人 们 越 
来 越 天 注 人 体 微生物 的 趋势 的 一 部 分 ， 人 体 微 生物 就 是 那些 生活 在 人 
体 皮 肤 与 喘 体 各 部 分 的 微生物 的 集合 。 

在 试验 性 研究 中 ，BBB2 人 研究 人 员 收 集 了 60 名 志愿 者 脐 部 的 药 签 ， 
用 复 用 焦 磷 酸 测序 法 提取 并 进行 16S rDNA 片段 的 测序 ， 然 后 确定 其 物 
种 基因 片段 的 来 源 。 每 一 个 识别 出 的 片段 被 称 为 “标记 样本 了 。 

我 们 可 以 利用 这 些 数据 来 回答 几 个 相关 问题 ; 


。 基 于 观察 到 的 物种 的 数量 ， 我 们 能 否 估 算 在 环境 中 物种 的 总 数 ? 
。 我 们 能 否 人 四 二 一 个 物种 的 种 群 比例 ， 印 每 一 个 物种 占 总 体 的 分 


。 如果 我 们 计划 收集 额外 的 样本 能 否 预测 有 多 少儿 物种 可 能 会 被 
现 ? 


。 要 使 观察 到 的 物种 的 比例 增加 到 一 个 给 定 的 国 值 ， 需 要 多 少 额外 
的 “标记 样本 ”片段 ? 


这 些 问题 构成 了 所 谓 的 未 知 物种 问题 。 


15.2 狮子， 老虎 和 能 


我 将 从 这 个 问题 的 一 个 简化 版 本 开始 。 在 这 个 版 本 中 ， 我 们 已 知 
物种 的 情况 ， 姑 且 称 之 为 狮子 、 老 虎 和 熊 。 假 设 我 们 参观 野生 动物 保 
护 区 ， 看 到 了 3 只 狮子 、2 只 老虎 和 1 头 熊 。 


如 果 我 们 在 保护 区 观察 到 任何 动物 物种 的 机 会 均等 ， 则 每 个 物种 
的 数量 由 多 项 分 布 决定 。 假 设 狮 子 、 老 虎 和 能 的 种 群 比率 是 p_1lion 、 
p_tiger 和 p_bear ， 看 到 3 只 狮子 ，2 只 老虎 和 1 尖 能 的 可 能 性 束 古 


p_lion ** 3 * ptiger ** 2 * pbear ** 1 


一 种 诱 人 但 不 正确 的 方法 是 用 beta 分 布 ( 见 32 页 的 “Beta 分 布 ") 来 
分 别 接 述 每 个 物种 的 种 群 比例 。 例 如 ， 我 们 看 到 3 只 狮子 和 3 只 “ 非 狮 
子 ” 如 果 我 们 将 其 视 作 3 个 “正面 ?和 3 个 “反面 ?的 话 ， 那 么 p_1Lion 的 
后 验 分 布 束 是 : 

beta= thinkbayes.Beta () 


beta.Update ((3,3)) 
print beta.MaximumLikelihood () 


p_lion 的 最 大 似 然 估 计 就 是 观察 到 的 比例 50%。 同样，p_tiger 
和 p_bear 的 最 大 极 大 似 然 估计 为 33% 和 17% 。 


但 这 里 有 两 个 问题 : 


1. 我 们 已 经 隐 舍 地 为 每 个 物种 使 用 了 一 个 均匀 的 从 0 到 1 的 先 验 ， 
但 是 因为 我 们 知道 有 3 个 品种 ， 所 以 其 实 这 个 先 验 是 不 正确 的 。 正 确 的 
先 验 应 该 是 平均 值 为 J3， 并 且 在 (其 他 的 ) 物种 具有 100% 的 种 群 比例 
时 似 然 度 应 该 为 零 。 

2. 每 个 物种 的 分 布 不 是 独立 的 ， 因 为 种 群 比例 总 和 为 1。 为 了 体 
现 这 种 依赖 ， 我 们 需要 3 个 物种 种 群 比例 的 联合 分 布 。 

可 以 用 一 个 狄 利克 和 雷 解决 这 两 个 问题 ( 见 
http://en.wikipedia.org/wiki/Dirichlet_distribution ) 。 就 如 我 们 以 beta 分 
布 来 挡 述 不 均匀 硬币 的 分 布 一 样 ， 我 们 可 以 使 用 狄 利克 雷 分 布 来 描述 
p_lion ，p_tiger 和 p_bear 的 联合 分 布 。 

狄 利 元 雷 分 布 是 beta 分 布 的 多 维 通用 版 本 。 与 正面 、 反 面 这 种 双 值 
0 ， 狄 利克 雷 分 布 能 处 理 任何 数量 的 结果 : 在 这 个 例子 中 ， 是 3 

| O 


如 条 有 n 个 结 有 末 ， 狄 利克 和 雷 分 布 是 由 n 个 参数 搬 述 的 ， 记 为 a 1 到 a 


n 


thinkbayes .py 中 ， 有 一 个 定义 了 狄 氏 的 类 如 下 : 


class Dirichlet(object): 


def _ init (self, n): 
self.n=n 
self.params = numpy.ones(n, dtype=numpy.int) 


n 为 维 数 ; 最 初 的 参数 都 是 1， 我 用 numpy 数组 存储 参数 ， 这 样 我 
可 以 利用 数组 操作 的 优势 。 


定 一 个 狄 利克 雷 分 布 ， 每 个 种 群 比例 的 边缘 分 布 是 一 个 beta 分 
布 ， 我 们 可 以 计算 如 下 


def MarginalBeta(self, i): 
alpha0 = self.params.sum() 
alpha = self.params[i] 
return Beta(alpha, alpha0-alpha) 


i 是 我 们 想 要 的 边 毕 分 布 的 指数 。alpha0 是 参数 的 总 和 ; alpha 
是 对 于 给 定 物种 的 参数 。 


在 该 示例 中 ， 每 个 物种 的 前 验 边 缘分 布 为 Beta(1，2) 。 我 们 可 
以 计算 平均 前 验 如 下 : 


dirichlet = thinkbayes.Dirichlet(3) 
for i in range(3): 
beta = dirichlet.MarginalBeta(i) 
print beta.Mean() 


正如 预期 的 那样 ， 每 个 物种 种 群 比例 的 前 验 均 值 是 1/3。 
要 更 新 狄 利克 和 雷 分 布 ， 我 们 把 这 一 观察 结 来 添加 a 到 参数 : 


def Update(self, data): 
m = len(data) 


self.params[:m] += data 


这 里 data 是 和 params 顺序 一 致 的 一 个 计数 序列 ， 所 以 在 这 个 例 
子 中 ， 它 应 该 是 独子、 老虎 和 能 的 数量 。 


data 可 以 比 params 短 ; 在 这 种 情况 下 ， 和 意味 着 有 一 些 物种 没有 
被 观察 到 。 


下 面 是 以 观察 到 的 数据 更 新 dirichlet 并 计算 后 验 边缘 分 布 的 代 


码 。 


data = [3, 2, 1] 
dirichlet.Update(data) 


for i in range(3): 
beta = dirichlet.MarginalBeta(i) 
pmf = beta.MakePmf() 
print i, pmf.Mean() 


图 15-1 显 示 了 结果 。 平 均 种 群 比例 的 后 验 是 44%、33% 和 22% 。 


种 群 密度 


图 15-1 三 个 物种 种 群 比例 的 分 布 


15.3 “分 层 版 本 

我 们 已 经 解决 了 这 个 问题 的 一 个 简化 版 本 ， 如 果 我 们 知道 有 多 少 
物种 ， 我 们 可 以 估算 每 一 个 的 种 群 比例 。 

现在 让 我 们 回 到 原来 的 问题 ， 估 计 物 种 的 总 数 。 要 解决 这 个 问 
题 ， 我 会 定义 一 个 元 Suite 对 象 ， 它 是 一 个 包含 其 他 Suite 对 象 作为 假设 
的 Suite 对 象 。 在 这 个 例子 里 ， 最 上 层 的 Suite 对 象 包含 物种 数量 的 假 
设 ， 底 层 包含 种 群 比 例 的 假设 。 


类 定义 如 下 : 
Class Species(thinkbayes.Suite): 


def _ init (self, ns): 


hypos = [thinkbayes.Dirichlet(n) for n in ns] 
thinkbayes.Suite. init (self, hypos) 


inait 一 取 为 的 可 能 值 的 列表 ， 并 创建 一 个 儿 利 克 雷 对 销 的 
列表 。 


下 面 是 创建 顶层 Suite 对 象 的 代码 : 


ns = range(3, 30) 
suite = Species(ns) 


ns 是 n 的 可 能 值 的 列表 。 由 于 已 经 看 到 3 个 物种 ， 所 以 必须 为 至 少 
3 个 。 我 选择 了 一 个 似乎 合理 的 上 限 ， 稍 后 会 检查 得 知 超过 这 个 弄 限 的 
° 并且 至 少 在 最 初 阶段 ， 我 们 假定 任何 在 此 范围 内 的 值 痢 是 
等 可 能 的 。 


要 更 新 一 个 分 层 模 型 ， 你 必须 更 新 所 有 层次 。 通 党 必须 先 更 新 扩 
层 再 同上 更 新 ， 但 在 本 例 中 ， 我 们 可 以 先 更 新 顶层 : 


#class Species 


def Update(self, data): 
thinkbayes.Suite.Update(self, data) 
for hypo in self.Values(): 


hypo.Update(data) 


Species.Update 调用 父 类 中 的 Update ， 然 后 遇 历 子 假设 并 更 
新 它们 。 


现在 ， 我 们 需要 一 个 似 然 函 数 : 


# class Species 


def Likelihood(self, data, hypo): 
dirichlet = hypo 
like = 0 
for i in range(1000): 
like += dirichlet.Likelihood(data) 


return like 


data 是 观察 到 的 计数 序列 ，hypo 是 一 个 狄 利克 雷 对 象 。 
Species,.Likelihood 调用 Dirichlet ,Likelihood 共 1000 次 然 
后 返回 总 和 。 


为 什么 调用 1000 次 ? 因为 Dirichlet .Likelihood 实际 上 并 不 
计算 数据 在 整个 狄 利克 雷 分 布 上 的 似 然 度 。 相 反 ， 它 从 假设 的 分 布 中 
取得 一 个 样本 然后 计算 数据 在 这 个 种 群 比例 样本 集 下 的 似 然 度 。 

下 面 是 实例 : 

# class Dirichlet 
def Likelihood(self, data): 
m = len(data) 


if self.n < m: 
return 0 


X data 


p self.Random() 
q = pL:m]™*x 
return q.prod() 


data 的 长 度 是 观察 到 的 物种 的 数量 。 如 果 看 到 的 物种 比 我 们 预计 
存在 的 多 ， 似 然 度 就是 0。 


否则 ， 我 们 随机 选择 一 组 种 群 比例 p ， 再 计算 多 项 式 Pmf， 也 就 
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pi 为 第 i 个 物种 的 种 群 比例 ，x ; 是 所 观察 到 的 数量 。 第 一 项 c , 是 
多 项 式 系数 ; 我 将 其 放置 在 在 计算 之 外 ， 因 为 它 仅 依赖 于 数据 的 乘法 
因子 而 不 是 假设 ， 所 以 它 被 归 一 化 了 〈 见 
http://en.wikipedia.org/wiki/Multinomial_distribution ) 


m 是 观察 到 的 物种 的 数量 。 我 们 只 需要 p 的 前 m 个 元 素 。 至 于 其 他 
的 部 分 : xi; 为 0， 所 以 六 为 1， 我 们 可 以 在 结果 中 单列 。 


15.4 ”随机 抽样 


有 两 种 方法 可 以 从 狄 利 殉 雷 分 布 产 生 随 机 样本 。 一 个 是 使 用 边 毕 
beta 分 布 ， 但 在 这 种 情况 下 ， 你 必须 一 次 选取 一 个 值 再 扩展 到 余下 的 
值 ， 使 得 它们 累加 和 为 1 (参见 
http://en.wikipedia.org/wiki/Dirichlet_distribution#Random_number_genera 
tion 


男 一 个 没 那 么 明显 但 速度 更 快 的 方法 是 从 n 个 伽 玛 (gamma) 分 布 
中 选取 值 ， 然 后 通过 除 以 总 和 来 归 一 化 。 下 面 是 代码 : 


# class Dirichlet 


def Random(self): 


p = numpy.random.gamma(self.params) 
return p / p.sum() 


现在 ， 我 们 准备 好 查看 结 宁 了 。 下 面 是 提取 n 的 后 验 分 布 的 代码 : 


def DistOfN(self): 
pmf = thinkbayes.Pmf() 
for hypo, prob in self.Items(): 


pmf.Set(hypo.n, prob) 
return pmf 


DistOfN 通过 在 顶层 假设 中 欠 代 ， 并 且 票 加 每 个 n 的 概率 。 

图 15-2 显 示 了 结果 。 最 可 能 的 值 是 4，3 到 7 之 间 的 值 也 很 有 可 能 ; 
之 后 的 概率 就 迅速 下 降 了 。 有 29 个 物种 的 概率 低 到 足以 忽略 不 计 ; 如 
果 我 们 选择 了 一 个 更 高 的 上 界 ， 也 会 得 到 相当 一 致 的 结果 。 
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图 15-2 0 的 后 验 分 布 


请 记 住 ， 这 个 结果 基于 n 的 先 验 是 均匀 分 布 的 。 如 果 我 们 知道 物种 
在 环境 中 数量 的 痛 景 信息 ， 我 们 可 以 选择 一 个 不 同 的 先 验 。 


15.5 ”优化 


必须 承认 ， 我 对 于 这 个 例子 中 的 解法 很 自 聚 。 未 知 物种 问题 并 不 
简单 ， 而 这 个 解法 简单 明了 ， 只 用 了 少 的 难以 置信 代码 〈 约 50 行 ) 。 


它 唯 一 的 问题 是 计算 慢 。 对 于 只 有 3 个 观察 物种 的 例子 它 足 够 好 ， 
0 问题 的 数据 就 不 够 好 了 一 一 这 类 数据 的 采样 中 有 超过 100 个 


接 下 来 的 儿 和 介绍 了 一 系列 扩展 这 个 解法 的 优化 方法 。 在 深入 到 
细 市 里 面前 ， 路 线 图 如 下 。 


。 第 一 步 是 要 认识 到 ， 如 采 我 们 以 同样 的 数据 更 新 狄 利 元 雷 分 布 ， 
对 于 所 有 的 值 ， 前 m 个 的 参数 都 是 相同 的 。 唯 一 的 区 别 是 假设 的 未 
知 物种 数量 。 因 此 ， 我 们 并 不 真正 需要 n 个 狄 利克 雷 对 象 ， 我 们 可 
PE 。Species2 实现 了 这 个 优 


Species2 也 对 所 有 假设 使 用 了 相同 的 一 组 随机 值 。 这 广 省 了 生 
成 随机 值 的 时 间 ， 但 它 还 有 更 重要 的 第 二 个 好 人 处， 通过 从 样品 空 
间 给 所 有 的 假设 赋予 相同 的 选取 值 ， 使 得 在 假设 之 间 的 比较 更 加 
公平 ， 所 以 它 只 需 较 少 的 迭代 次 数 束 能 收 化 。 

即使 有 了 这 些 改动 ， 还 有 一 个 重大 的 性 能 问题 。 随 着 观察 到 的 物 
种 的 增加 ， 随 机 种 群 比例 的 数组 也 变 大 了 ， 而 选取 到 一 个 近似 正 
确 的 值 的 几率 就 变 小 了 。 所 以 绝 大 多 数 迭 代 次 数 得 到 的 似 然 度 很 
小 ， 以 致 对 总 和 产生 的 贡献 不 多 ， 也 就 没有 在 假设 之 间 产 生 区 


ll 


解决 方法 是 每 次 只 更 新 一 个 物种 ，Species4 是 使 用 狄 利克 
雷 对 象 来 表示 子 假设 这 一 策略 的 一 个 简单 实现 。 


最 后 ， 在 模型 顶层 Species5 结合 子 假设 ， 并 使 用 numpy 数组 运 
算 以 加 快速 度 。 


如 果 你 对 细 市 不 感 兴趣 ， 可 以 跳 到 156 页 的 “肚脐 数据 *， 在 那儿 侍 
看 来 日 肚脐 数据 的 结果 。 


15.6 ” 堆 琶 的 层次 结构 


所 有 底层 的 狄 利克 雷 分布 以 相同 的 数据 更 新 ， 所 以 对 它们 来 说 ， 
前 m 个 参数 相同 。 我 们 可 以 通过 将 参数 合并 入 顶层 Suite 对 象 来 消除 这 
一 重复 过 程 。Species2 实现 了 这 一 优化 : 


class Species2(object ) : 


def _ init (self, ns): 
self.ns = ns 
self.probs = numpy.ones(len(ns), dtype=numpy.double) 
self.params = numpy.ones(self.high, dtype=numpy .int) 


ns 是 n 假设 值 的 一 个 列表 ; probs 是 相应 概率 的 列表 。 而 
params 是 狄 氏 参数 的 顺序 ， 初 始 所 有 的 参数 都 为 1 。 


Species2,Update 更 新 这 一 分 层 (模型 ， 的 两 个 层次 。 第 一 层 
次 是 n 的 每 个 可 能 值 的 概率 ， 下 一 层次 是 狄 利 克 雷 参数 : 


# class Species2 


def Update(self, data): 
like = numpy.zeros(len(self.ns), dtype=numpy .double) 
for i in range(1000): 
like += self.SampleLikelihood(data) 


self.probs *= like 
self.probs /= self.probs.sum() 


m = len(data) 
self.params[:m] += data 


SampleLikelihood 返回 似 然 度 的 一 个 数组 ， 每 一 个 似 然 度 值 对 
应 于 n 的 每 个 可 能 值 。Like 累加 1000 个 样本 总 的 似 然 度 。 
self .probs 乘 以 总 似 然 度 ， 然 后 归 一 化 。 最 后 两 行 更 新 参数 ， 和 
Dirichlet,Update 一 样 。 


现在 ， 让 我 们 来 看 看 SampleLikelihood ， 这 里 有 两 个 可 优化 的 
地 方 。 


。 当 物 种 的 假想 数 n 超过 所 观察 到 的 数目 m ， 我 们 只 需要 多 项 式 PMF 
的 前 m 个 项 ， 其 余 均 为 1 。 
。 如 有 果 物 种 的 数量 很 大 ， 该 数据 的 似 然 度 用 浮 点 数 来 表示 可 能 太 小 
(请 参阅 99 页 的 “数据 下 洲 ”) 。 因 此 ， 计 算 对 数 似 然 度 要 更 安 


全 。 


同样 ， 该 多 项 式 的 PMF 是 


所 以 对 数 似 然 度 是 


log cz + ZT1 logpi + + Tn logpn 


它 更 快速 旦 容易 计算 。 同 样 ，c、 对 所 有 假设 是 相同 的 ， 所 以 我 们 
可 以 放 在 一 边 先 不 管 它 。 下 面 是 代码 : 


# class Species2 


def SampleLikelihood(self, data): 
gammas = numpy.random.gamma(self.params) 
m = len(data) 
row = gammas[:m] 
col = numpy.cumsum(gammas) 


log_likes = [] 

for n in self.ns: 
ps = row / col[n-1] 
terms = data * numpy,1Log(ps) 
log_like = terms.sum() 
log_likes.append(log_like) 


log_likes -= numpy.max(log_likes) 
likes = numpy.exp(log_likes) 


coefs = [thinkbayes.BinomialCoef(n, m) for n in self.ns] 
likes *= coefs 


return likes 


gammas 是 一 个 伽 玛 分 布 值 构 成 的 数组 ， 让 是 n 假设 值 的 最 
大 值 。row 是 gammas 的 前 m 个 元 素 ; 因为 这 些 参 数 仅 依赖 于 数据 本 
上身， 所 以 这 些 就 是 我 们 需要 的 全 部 参数 了 。 


对 于 n 的 每 个 值 ， 我 们 需要 将 row 除 以 gamma 中 前 n 项 值 的 总 
和 ，cumsum 计算 这 些 累 积 值 ， 并 将 它们 存储 在 col 中 。 


loop 循 环 达 代 n 的 这 些 值 ， 再 素 加 到 一 个 对 数 似 然 值 的 列表 。 


在 循环 内 部 ，ps 包含 概率 的 行 数 ， 以 对 应 的 累计 总 和 进行 归 一 。 
terms 包含 和 的 各 项 ，zilogp; ，10g_1ike 包含 它们 的 和 。 


循环 结束 后 ， 我 们 要 将 对 数 似 然 度 转化 为 线性 似 然 度 ， 但 最 好 是 
先进 行 转 置 使 得 最 大 的 对 数 似 然 度 为 0， 这 样 的 话 ， 线 性 似 然 度 束 不 会 
显得 太 小 (请 参阅 “数据 下 淤 ”99 页 ) 。 


最 后 ， 在 返回 似 然 度 前 ， 我 们 必须 应 用 一 个 修正 系数 (因子 ) ， 
它 是 我 们 可 以 观察 到 m 个 物种 的 可 能 方法 的 数量 ， 同 时 假设 物种 的 总 数 
为 n。Binomialcoefficient 计算 这 个 “hn 选 m ”过 程 ， 写 为 (m) 。 


正如 常见 的 那样 ， 优 化 的 版 本 可 读 性 差 ， 也 比 原始 版 本 更 容易 出 
错 。 但 这 吏 是 我 从 和 商 单 版 本 开始 的 一 个 原因 ， 我 们 可 以 用 它 进 行 回归 
测试 。 我 绘制 了 从 两 个 版 本 得 到 的 结果 值 ， 可 以 确认 它们 是 大 致 相等 
的 ， 并 且 随 着 迭代 次 数 增 加 它们 都 是 收敛 的 。 


15.7 “ 另 一 个 问题 


我 们 还 可 以 做 得 更 多 来 优化 这 一 代码 ， 但 有 男 外 一 个 需要 首先 处 
理 的 问题 。 随 着 观察 到 的 物种 数目 的 增加 ， 这 个 版 本 的 解法 变 得 让 人 
心烦， 它 需 要 更 多 的 迭代 才能 收敛 到 一 个 好 的 结果 。 


但 问题 是 ， 如 果 我 们 从 狄 利克 雷 分 布 中 选择 的 种 群 比例 ps 并 不 是 
近似 正确 的 ， 所 观察 到 的 数据 的 似 然 度 束 会 接近 零 ， 而 对 于 n 的 所 有 值 
几乎 束 是 错 的 。 那 么 大 多 数 迭 代 束 不 能 为 总 体 可 能 性 提供 有 用 的 页 
献 。 随 着 所 观察 到 的 物种 的 数量 m 变 大 ， 以 确切 可 能 性 选取 ps 的 概率 
束 会 变 小 ， 它 真是 相当 小 。 


位 运 的 是 ， 有 一 个 解决 办 法 。 如 果 你 观察 一 组 数据 ， 你 可 以 束 整 
个 数据 集 更 新 先 验 分 布 ， 或 着 把 它 分 解 成 一 系列 所 述 数 据 的 子 集 再 未 
一 更 新 ， 并 且 这 两 种 方式 更 狐 的 结 采 都 是 相同 的 。 

在 这 个 例子 中 ， 关 键 十 每 次 更 新 十 针对 一 个 物种 。 这 样 ， 当 我 们 
生成 一 组 随机 的 ps 时 ， 只 有 其 中 一 个 会 影响 到 计算 得 到 的 似 然 度 ， 因 
此 选择 一 个 正确 对 象 的 概率 要 好 得 多 。 


下 面 是 每 次 更 新 一 个 物种 的 新 版 本 : 


class Species4(Species ) : 


def Update(self, data): 
m = len(data) 


for i in range(m): 
one = numpy.zeros(i+1) 
one[i] = datal[i] 
Species.Update(self, one) 


该 版 本 从 Species 继承 ”init  ， 所 以 它 以 一 个 狄 利 克 雷 对 象 
的 列表 来 表示 假设 (和 Species2 中 不 同 ) 。 


Update 遍历 观察 到 的 物种 ， 创 建 一 个 数组 one ， 它 包含 某 一 个 
物种 的 计数 ， 都 先 预 置 为 零 。 然 后 调用 父 类 的 Update ， 计 算 似 然 度 并 
更 新 子 假设 。 

因此 ， 在 这 个 例子 里 ， 我 们 做 三 次 更 新 。 第 一 个 有 点 像 “ 看 到 了 三 
只 狮子 *。 第 二 个 是 “看 到 了 两 只 老虎 ， 没 有 看 到 更 多 的 狮子 *。 第 二 个 
是 “看 到 一 头 能 ， 没 有 看 到 更 多 狮子 和 老虎 ”。 


下 面 是 似 然 度 的 新 版 本 : 


# class Species4 


def Likelihood(self, data, hypo): 
dirichlet = hypo 
like = 0 
for i in range(self.iterations): 
like += dirichlet.Likelihood(data) 


# correct for the number of unseen species the new one 
# could have been 

m = len(data) 

num_unseen = dirichlet.n - 

like *= num_unseen 


return like 


这 和 Species .Likelihood 几乎 相同 ， 所 不 同 的 是 因子 
num_unseen 。 这 种 校正 是 必要 的 ， 因 为 每 当 我 们 首次 看 到 某 一 个 物 
种 ， 我 们 都 要 考虑 到 有 其 他 的 一 些 我 们 本 应 看 到 的 未 见 物种 。 对 于 较 


值 束 会 有 更 多 我 们 本 应 看 到 的 未 见 物种 ， 这 一 因素 增加 了 数据 的 
似 然 肛 。 


必须 承认 这 是 一 个 我 最 开始 并 没有 搞 清 区 的 微妙 之 处 ， 但 摘 清 允 
后 ， 紧 接着 我 就 能 够 通过 比较 以 前 的 版 本 来 验证 它 (该 版 本 ) 了 。 


15.8 ”还 有 工作 要 做 


每 次 执行 一 个 物种 的 更 新 解决 了 一 个 问题 ， 但 它 也 市 来 了 夯 一 个 
问题 。 每 次 更 新 需要 的 时 间 正 比 于 km ， 其 中 k 是 假设 的 数目 ，m 是 观 
察 到 的 物种 的 数量 。 因 此 ， 如 有 条 我 们 做 mm 次 更 新 ， 总 运行 时 间 正 比 于 


km 。 


但 是 ， 我 们 可 以 利用 151 页 “ 扒 县 的 层次 结构 ?中 同样 的 诀窍 加 快速 
度 : 我 们 将 捍 脱 狄 利克 雷 对 象 ， 将 分 层 结构 中 的 两 个 层次 折 车 到 一 个 
单一 的 对 象 。 所 以 下 面 是 Species 的 另 一 个 版 本 : 


class Species5(Speciles2 ) : 


def Update(self, data): 
m = len(data) 
for i in range(m): 
self.Updateone(i+1, data[i]) 
self.params[i] += datal[i] 


该 版 本 从 Species2 继承 init  ， 所 以 它 使 用 ns 和 probs 表 
示 n 的 分 布 ， 而 params 表示 狄 利克 雷 分 布 的 参数 。 


Update 类 似 于 我 们 在 上 一 广 中 看 到 的 。 它 遍历 观察 到 的 物种 再 调 
用 Updateone : 


# Class Species5 


def UpdateOone(self, i, count): 
likes = numpy.zeros(len(self.ns), dtype=numpy.double) 
for i in range(self.iterations): 
likes += self.SampleLikelihood(i, count) 


unseen_species = [n-i+1 for n in self.ns] 
likes *= unseen_ species 


self.probs *= likes 
self.probs /= self.probs.sum() 


此 函数 类 似 于 Species2.Update ， 但 有 两 个 变化 。 


。 接口 是 不 同 的 。 我 们 得 到 的 不 是 整个 数据 集 ， 而 是 观察 到 的 物种 
的 索引 i 和 已 经 看 到 的 物种 数量 count 。 

。 我 们 要 在 未 见 物种 的 数量 上 应 用 一 个 修正 系数 ， 如 
Spcies4.Likelihood 所 示 。 这 里 的 不 同 之 处 在 于 我 们 以 数组 
的 乘法 即时 更 新 全 部 似 然 度 。 


最 后 ，SampleLikelihood 如 下 : 


# class Species5 


def SampleLikelihood(self, i, count): 
gammas = numpy.random.gamma(self.params) 


sums = numpy.cumsum(gammas)[self.ns[0]-1:] 


ps = gammas[i-1] / sums 
log_likes = numpy.log(ps) * count 


log_likes -= numpy.max(log_likes) 
likes = numpy.exp(log_likes) 


return likes 


这 类 似 于 Species2.SampleLikelihood ; 不 同 的 是 ， 每 一 次 
更 新 只 包括 单一 物种 ， 所 以 并 不 需要 一 个 循环 。 


这 个 函数 的 运行 时 间 正 比 于 假设 数量 k。 它 运行 m 次 ， 因 此 更 新 的 
0 。 所 以 我 们 得 到 一 个 准确 结果 需要 的 迭代 次 数 通 
利 也 就 少 了 。 


15.9 ”肚脐 数据 


关于 狮子 、 老 虎 和 能 的 问题 讨论 得 已 经 足够 了 。 现 在 让 我 们 回 到 
肚脐 问题 。 为 了 得 到 数据 的 售 义 ， 考 虑 B1242 课 题 ， 其 400 个 标记 样本 


产生 了 如 下 计数 的 61 个 物种 : 


有 少数 几 个 优势 物种 构成 了 整体 的 很 大 一 部 分 ， 而 很 多 其 他 物种 
只 产生 一 个 单一 的 样本 标记 。 这 些 “ 单 身 ? 的 数目 表明 了 没 观察 到 的 物 
种 可 能 至 少 有 那么 几 个 。 


狮子 和 老虎 的 例子 中 ， 我 们 假设 在 你 扩 区 里 每 种 动物 被 观测 到 的 
可 能 性 是 相等 的 。 类 似 地 ， 对 于 肚脐 问题 的 数据 ， 我 们 假设 每 种 细 范 
被 标记 到 的 可 能 也 是 相等 的 。 


在 现实 中 ， 数 据 收集 过 程 中 每 个 步 又 都 可 能 引入 偏差 。 有 些 物种 
被 拭 子 拾 起 的 可 能 性 大 些 ， 或 容易 产生 可 供 识 别 的 扩 增 子 (生物 遗传 
学 名 词 : 聚合 酶 链 式 反 应 获得 的 双 链 核 苷 酸 产物 ) 。 所 以 当 我 们 谈 到 
每 一 个 物种 的 种 群 比例 时 ， 我 们 应 当 要 考虑 到 这 种 误差 的 来 源 。 


还 要 承认 ， 我 不 太 产 格 地 使 用 了 术语“ 物种 ”。 肯 先 ， 细 菌 物 种 没 
有 得 到 很 好 的 限定 。 其 次 ， 有 的 样本 标记 能 够 识别 特定 的 物种 ， 其 他 
的 则 只 能 识别 一 个 属 。 更 准确 地 ， 我 应 该 说 “操作 分 类 单位 ”>， 或 简写 


为 OTU (operational taxonomic unit) 


现在 ， 让 我 们 来 处 理 一 些 肚脐 数据 。 我 定义 了 一 个 Subject 类 表 
示 俩 完 中 每 个 相关 谍 题 的 信和 已: 


class Subject(object ) : 


def _ init (self, code): 
self.code = code 


self.species = [] 


每 个 课题 都 有 一 个 字符 编码 ， 比 如 “B1242”， 还 有 (计数 ， 种 名 ) 
对 的 列表 ， 按 计数 递增 的 顺序 存放 。Subject 提供 了 几 个 方法 ， 可 以 
很 容易 地 得 到 这 些 计数 和 物种 的 名 称 。 你 可 以 从 


http:/thinkbayes.com/species.py 了 解 细 广 。 更 多 信息 ， 请 参见 前 言 的 “ 代 
码 指南 ”。 


Subject 提供 了 名 为 Process 的 方法 来 创建 和 更 新 一 个 
Species5 的 Suite 对 象 ， 它 代表 n 的 分 布 和 种 群 比例 。 


Suite2 提供 了 Dist0OfN 方法 ， 它 返回 n 的 后 验 分 布 。 


# class Suite2 


def DistN(self): 


items = zip(self.ns, self.probs) 
pmf = thinkbayes.MakePpmfFromItems(items) 
return pmf 


图 15-3 显 示 了 课题 B1242 中 hn 的 分 布 。 刚 好 有 61 个 物种 ， 即 没有 未 
见 物种 的 概率 几乎 为 零 。 物 种 数量 最 可 能 的 值 是 72，90% 和 置信 区 间 处 在 
66 到 79 之 间 。 从 横 坐 标的 高 值 部 分 来 看 ， 有 87 个 物种 的 可 能 性 很 小 。 
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图 15-3 ”课题 B1242 中 n 的 分 布 


接 下 来 我 们 计算 每 个 物种 种 群 比 例 的 后 验 分 布 。Species2 提供 
了 DistofPrevalence : 


# Class Species2 


def DistofPrevalence(self, index): 
metapmf = thinkbayes.Pmf() 


for n, prob in zip(self.ns, self.probs): 
beta = self.MarginalBeta(n, index) 


pmf = beta.MakePmf() 
metapmf .Set (pmf, prob) 


mix = thinkbayes.MakeMixture(metapmf) 
return metapmf, mix 


index 显示 了 我 们 想 要 计算 的 物种 。 对 于 每 个 n ， 种 群 比例 的 后 
验 分 布 不 同 。 


循环 迷 代 n 的 可 能 值 及 其 概率 。 由 n 的 每 一 个 值得 到 表示 所 指 物种 
边 绿 分 布 的 一 个 Beta 对 象 。 别 筷 了 Beta 对 象 包含 有 参数 alpha 和 beta 
; 它们 不 像 Pmf 对 象 那样 有 值 和 其 概率 对 ， 但 它们 提供 MakePmf ， 生 
成 近似 于 连续 Beta 分 布 的 离散 值 。 


metapmf 是 一 个 在 已 知 n 的 条 件 下 ， 包 含 种 群 比例 分 布 的 元 
Pmf。MakeMixture 将 元 Pmf 结 合 到 mix ，mix 结合 条 件 分 布 到 一 个 
单一 的 种 群 比例 分 布 。 

图 15-4 显 示 了 前 五 个 最 大 物种 的 结果 。 这 些 最 常见 的 物种 占 到 了 
400 个 标记 样本 中 的 23%， 但 由 于 肯定 存在 未 见 物 种 ， 因 此 其 种 群 比例 
最 有 可 能 的 估计 为 20%，90% 的 置信 区 间 是 17%~23%。 
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图 15-4 ”B1242 种 群 比例 的 分 布 


15.10 ”预测 分 布 


在 4 个 相关 问题 中 ， 我 介绍 了 隐藏 物种 的 问题 。 通 过 计算 n 和 每 个 
物种 种 群 比例 的 后 验 分 布 ， 我 们 已 经 回答 了 前 两 个 。 


为 外 两 个 问题 是 : 
。 如 来 计划 收集 更 多 的 样本 ， 我 们 能 不 能 预测 可 能 发 现 多 少 个 新 物 
. 


种 : 
。 需 要 增加 多 少 额 外 标记 样本 ， 才 能 提高 观察 到 物种 的 比例 到 一 个 
给 定 的 国 值 ? 
要 回答 类 似 这 样 的 预测 问题 ， 我 们 可 以 使 用 后 验 分 布 来 模拟 可 能 
人 并 计算 可 能 看 到 的 物种 数量 预测 的 分 布 ， 以 及 总 数 占 


这 些 模拟 过 程 的 核心 是 : 
1. 从 后 验 分 布 迁 取 n 值 ; 


2， 为 每 一 个 物种 选取 其 种 群 比例 ， 包 括 可 能 的 未 见 物种 ， 使 用 儿 
利克 雷 分 布 


3. 生成 未 来 观测 值 的 随机 序列 

4. 计算 新 物种 的 数量 ，num_new ， 作 为 额外 样本 数 k 的 函数 ; 
5. 重复 前 面 的 步骤 ， 累 加 num_new 和 k 的 联合 分 布 。 

下 面 的 代码 RunSimulation 运行 了 一 个 单 次 模拟 : 


# class Subject 


def RunSimulation(self, num_reads): 
m, seen = self.GetSeenSpecies() 
n, observations = self.GenerateObservations(num_reads) 


curve = [] 


for k, obs in enumerate(observations ) : 
seen.add(obs) 


num_new = len(seen) - m 
curve.append((k+1i, num_new)) 


return curve 


num_reads 是 要 模拟 的 额外 的 样本 数 。m 是 可 见 物 种 的 数目 ， 而 
seen 是 每 个 物种 唯一 名 称 的 字符 串 集 合 。n 是 一 个 从 后 验 分 布 选 取 的 
随机 值 ，observations 是 物种 名 字 的 一 个 随机 序列 。 


每 经 过 一 次 循环 ， 我 们 在 seen 中 加 入 得 到 的 新 的 观察 结果 ， 并 记 
录 样 本数 和 目前 新 物种 的 数量 。 


RunSimulation 的 结果 是 一 个 稀疏 曲线 ， 表 示 为 样本 数 和 新 物 
种 数目 对 的 一 个 列表 。 


检查 结果 前 ， 我 们 来 看 看 GetSeenSpecies 和 
GenerateObservations 。 


#class Subject 


def GetSeenSpecies(self): 
names = self.GetNames() 
m = len(names) 
seen = set(SpeciesGenerator(names, m)) 
return m, seen 


GetNames 在 数据 文件 中 的 返回 物种 名 称 的 列表 ， 但 对 于 许多 课 
题 ， 这 些 名 称 不 是 唯一 的 ， 所 以 我 通过 SpeciesGenerator 用 序列 号 
来 扩展 每 个 名 称 : 


def SpeciesGenerator(names, num): 
i=0 
for name in names : 
yield '%s-%d' % (name, i) 
i += 1 


while i < num: 
yield "unseen-%d' % i 


i += 1 


已 知 一 个 命名 Corynebacterium ，SpeciesGenerator 将 产 
生 *Corynebacterium-1” 这 样 的 名 字 。 当 名 称 列 表 耗 尽 时 ， 将 产生 
如 unseen-62 这 样 的 命名 。 


Generateobservations 如 下 : 


# class Subject 


def GenerateObservations(self, num_reads): 
n, prevalences = self.suite.SamplePosterior() 


names = self.GetNames() 
name_iter = SpeciesGenerator(names，n) 


d = dict(zip(name_iter, prevalences)) 
cdf = thinkbayes.MakeCdfFromDict(d) 
observations = cdf.Sample(num_reads) 
return n, observations 


同样 的 ，num_reads 是 要 生成 的 额外 样本 数 。n 和 
prevalences 是 后 验 分 布 的 样本 。 


cdf 是 一 个 映 冉 物种 名 到 累积 概率 的 Cdf 对 象 ， 包 括 未 见 物 种 ， 采 
用 Cdf 使 产生 物种 名 称 的 随机 序列 过 程 变 得 高 效 。 


最 后 ，Species2.SamplePosterior 如 下 : 


def SamplePosterior(self): 
pmf = self.DistOfN() 
n = pmf.Random() 
prevalences = self.SamplePrevalence(n) 
return n, prevalances 


SamplePrevalences 生成 种 群 比例 在 条 件 为 n 时 的 样本 : 


# Class Species2 


def SamplePrevalences(self, n): 


params = self.params[:n] 

gammas = numpy.random.gamma(params) 
gammas /= gammas.sum() 

return gammas 


我 们 会 看 到 这 个 算法 从 狄 利克 雷 分 布 产生 随机 值 (如 第 149 页 “ 随 
机 抽样 ?所 述 的 ) 。 


图 15-5 显 示 了 B1242 课 题 鸭 100 个 模拟 的 稀 忠 曲线 。 该 曲线 显得 “ 持 
动 * 是 因为 我 为 每 条 曲线 加 了 一 个 随机 偏 移 量 ， 使 得 它们 不 会 重合 在 一 
起 。 通 过 观察 ， 我 们 可 以 估算 出 400 个 额外 的 标记 样本 后 ， 我 们 很 可 能 
会 发 现 2~6 个 新 的 物种 。 
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图 15-5 B1242 课 题 的 模拟 稀 玻 曲线 


15.11 联合 后 验 


我 们 可 以 利用 这 些 模 拟 来 估计 num_new 和 k 的 联合 分 布 ， 由 此 ， 
我 们 还 可 以 得 到 num_new 在 k 为 任意 值 条 件 下 的 分 布 。 


def MakeJointPredictive(curves ) : 
joint = thinkbayes.Joint() 
for curve in curves: 
for k, num new In curve: 


Joint.Incr((k, num_new)) 
joint.Normalize() 
return joint 


MakeJointPredictive 创建 一 个 Joint 对 象 ， 它 是 一 个 以 元 组 为 
值 的 Pmf 对 象 。 


curves 是 一 个 RunSimulation 创建 的 稀疏 曲线 的 列表 。 每 条 
曲线 包含 k 和 num_new 对 的 列表 。 


由 此 产生 的 联合 分 布 是 从 每 个 数值 到 其 发 生 概 率 的 一 个 映射 关 
系 。 给 定 联合 分 布 ， 我 们 可 以 通过 Joint .Conditional 得 到 
num_new 以 k 为 条 件 下 的 分 布 ( 见 “ 条 件 分 布 * 第 90 页 ) 。 


Subject .MakeConditionals 接收 一 个 ks 的 列表 ， 并 计算 
num_new 对 每 个 k 的 条 件 分 布 。 其 结果 是 一 个 Cdf 对 象 构成 的 列表 。 


def MakeConditionals(curves, ks): 
joint = MakeJointPredictive(curves) 


cdfs = [] 
for k in ks: 
pmf = joint.Conditional(1, ©, k) 


pmf .name = 'k=%d' % k 
cdf = pmf .MakeCdf() 
cdfs.append(cdf) 


return cdfs 


图 15-6 显 示 了 结果 。100 个 额外 的 标记 样本 后 ， 预 测 的 新 物种 的 数 
量 中 值 为 2，90% 置 信 区 间 为 0 到 5。800 个 标记 样本 后 ， 我 们 有 望 看 到 3 


到 12 个 新 的 物种 。 
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图 15-6 “在 不 同 数量 的 额外 标记 样本 条 件 下 ， 新 发 现 物种 数量 的 分 布 


15.12 ”覆盖 


我 们 要 回答 最 后 一 个 问题 : “需要 增加 多 少 额外 的 标记 样本 ， 才 能 
把 观察 到 物种 比例 提高 到 一 个 给 定 的 病 值 ”? 


要 回答 这 个 问题 ， 我 们 需要 RunSimulation 的 一 个 能 计算 已 观 
测 物 种 的 分 数 比例 的 版 本 ， 而 不 是 痢 物 种 数量 的 版 本 。 


# class Subject 


def RunSimulation(self, num_reads): 
m, seen = self.GetSeenSpecies() 
n, observations = Self.Generateobservations(num_reads ) 


curve = [] 
for k, obs in enumerate(observations ) : 
seen.add(obs) 


frac_seen = len(seen) / float(n) 
curve.append((k+1, frac_seen)) 


return curve 


接 下 来 ， 循 环 每 一 条 曲线 并 创建 一 个 字典 d ， 轴 射 额外 样本 数量 k 
到 一 个 fracs 列表 ， 也 丈 是 在 取得 k 个 样本 后 得 到 的 履 盖 率 值 的 列 
表 o 
def MakeFracCdfs(self, curves): 
d = {} 
for curve in curves: 
for k, frac in curve: 


d.setdefault(k, []).append(frac) 
cdfs = {} 


for k, fracs in d.iteritems(): 
cdf = thinkbayes.MakeCdfFromList(fracs) 
cdfs[k] = cdf 


return cdfs 


这 时 ， 我 们 对 k 的 每 一 个 值 创建 了 fracs 的 Cdf 对 象 ， 这 个 Cdf 表 
示 了 k 个 样本 后 履 盖 率 的 分 布 。 


CDF 告 诉 了 你 落 入 给 定 靖 值 内 的 概率 ， 而 互补 CDF 告 诉 了 你 超过 
病 值 范围 的 概率 ， 图 15-7 显 示 了 不 同 k 值 范围 下 的 互补 CDF。 
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图 15-7 ”额外 标记 样本 数 履 盖 范 围 的 互补 CDF 


要 理解 该 图 ， 沿 着 x 轴 选 取 一 个 需要 的 覆盖 率 范 围 ， 例 如 90%， 接 
着 从 图 上 就 可 以 发 现 k 次 样本 标记 后 ， 要 达到 90% 履 盖 率 的 概率 。 例 
如 ，200 次 样本 标记 ， 有 约 40% 的 机 会 得 到 90% 的 禾 盖 率 ， 而 1000 次 样 
本 标记 ， 束 有 90% 的 机 会 得 到 90% 的 覆盖 率 。 

如 此 ， 我 们 回答 了 未 知 物种 问题 的 全 部 四 个 问题 。 要 以 实际 数据 
验证 本 革 中 提 到 的 算法 ， 必 须 涉及 更 多 细 市 ， 但 是 这 章 已 经 太 长 ， 所 
以 这 里 我 束 不 再 继续 讨论 了 。 

你 可 以 深入 了 解 一 下 这 类 问题 ， 以 及 我 如 何 找到 这 些 问 题 的 ， 参 
考 http://allendowney.blogspot.com/2013/05/belly-button-biodiversity-end- 
game.html 。 


你 可 以 从 http:/Nthinkbayes.com/species.py. 下 载 本 章 的 代码 ， 更 多 信 
妃 请 参考 前 言 的 “代码 指南 ”。 


15.13 “讨论 

未 知 物种 问题 是 一 个 活跃 的 研究 领域 ， 我 相信 本 章 中 的 算法 为 此 
贡献 了 一 些 新 意 。 在 不 到 200 页 的 篇 幅 里 ， 我 们 已 经 从 概率 论 基础 扩展 
到 了 研究 的 前 沿 ， 这 使 我 感到 高 兴 。 


本 书 中 ， 我 的 目的 是 传达 出 3 个 关联 的 理念 。 


贝 叶 斯 思维 : 贝 叶 斯 分 析 的 立足 点 是 使 用 概率 分 布 来 表示 尚 不 明 
确 的 观点 ， 通 过 数据 来 修正 这 些 分 布 ， 使 用 得 到 的 结 订 进 行 预 测 
和 提供 决策 信息 。 

计算 方法 : 本 书 的 前 提 是 使 用 计算 方法 而 不 是 纯 数学 方法 理解 由 
叶 斯 分 析 会 更 容易 ， 通 过 可 以 组 合 且 可 以 重复 使 用 的 程序 框架 来 
应 用 贝 叶 斯 方法 也 更 简单 。 

迭代 模型 ， 大 多 数 真 实 问 题 都 和 建 模 决策 以 及 于 真实 性 和 复杂 性 
之 加 的 权衡 有 关 。 预 先知 道 哪些 要 素 应 该 纳入 模型 ， 哪 些 要 素 可 
以 个 抽 象 到 模型 之 外 通 单 是 不 可 能 的 。 最 好 的 办 法 束 古 迭代 ， 从 
简单 的 模型 开始 再 慢 慢 增加 复杂 度 ， 使 用 每 一 个 模型 来 交叉 验证 
其 他 的 模型 。 


这 些 观 念 实用 且 强 大 ， 从 简单 的 例子 到 最 新 的 研究 课题 ， 它 们 适 
用 于 科学 研究 和 工程 的 每 一 个 领域 。 

如 有 果 你 领会 到 了 ， 你 应 当 已 经 为 用 这 些 工 具 来 解决 工作 中 的 新 问 
题 做 好 了 准备 ， 和 硕 望 你 发 现 它 的 用 处 ， 要 记得 将 你 的 收获 告诉 我 。 


@ 译注 : 参考 生物 学 文献 ， 原 文 的 “read” 根 据 上 下 文 翻译 为 标记 样本 或 
样本 或 样本 标记 。 


作者 简介 


艾 伦 . 唐 尼 是 欧 林 工程 学 院 计算 机 科学 系 的 教授 。 他 曾 在 韦 尔 斯 
利 学 院 、 科 尔 比 学 院 和 加 州 大 学 伯克利 分 校 教授 计算 机 课程 。 


_ 他 拥有 U.C. 伯 克利 的 计算 机 科学 博士 学 位 和 麻 省 理工 学 院 的 硕士 


站 学 年 学 位 % 


译 痢 简介 


许 杨 毅 ， 狐 浪 网 系统 架构 师 ， 技 术 保 障 部 总 监 ， 毕 业 于 湖南 大 
学 ， 拥 有 15 年 互联 网 工作 经 验 。 


大 于 封面 


4《 贝 叶 斯 思维 》 一 书 封面 的 动物 是 红 鳝 鱼 〈 也 称 为 纵 带 羊 鱼 ) 。 
这 种 可 以 在 地 中 海 、 北 大 西洋 东海 域 和 黑海 发 现 的 须 鲍 科 鱼 ， 因 其 第 
一 背鳍 后 独特 的 条 纹 为 人 所 知 。 红 鳝 鱼 是 地 中 海地 区 人 们 青睐 的 美 
味 ， 和 同属 的 须 负 科 鱼 一 一 半 鱼 一 样 ， 只 是 羊 鱼 没 有 第 一 育 鳍 后 的 条 
纹 。 然 而 红 锯 鱼 要 更 珍 贯 ， 据 说 其 味道 品 壬 起 来 类 似 生 蜂 。 传 说 右 罗 
蕊 人 在 池塘 中 饲养 红 鲜 鱼 ， 宠 爱 并 训练 它们 一 听 到 钟 声 束 喂 饲 。 即 便 
征 人 工 养 殖 的 红 鳝 鱼 一 般 也 不 到 两 磅 重 ， 其 价格 有 时 和 银 需 一 样 。 

非 野外 环境 下 ， 红 鳝 鱼 于 浅 帮 水 系 赣 养 ， 其 上 下 层 具 有 独特 的 被 
称 为 触须 的 两 根 胡 须 ， 触 须 用 来 探测 海底 的 食物 。 因 为 饲养 于 较 浅 的 
沙滩 和 岩石 底部 ， 它 的 触须 与 其 深水 的 近 杀 羊 鱼 相 比 没有 那么 灵敏 。 


封面 图 片 来 自 迈 尔 斯 . 克 莱 斯 词典 。 


译 后 记 

本 书 的 翻译 其 实 来 自 和 编辑 开 过 的 一 个 玩笑 ， 我 当时 戏说 这 本 书 
的 书 名 Think Bayes 不 妨 译 成 《纪念 贝 叶 斯 老 先 生 》， 而 实际 上 托马斯 : 
贝 叶 斯 先生 也 的 确 是 一 个 伟大 的 值得 我 们 纪念 的 人 ， 科 学 的 历史 正二 
由 这 样 一 些 伟大 的 人 们 推动 的 。 贝 叶 斯 发 展 并 推出 了 我 们 现在 熟悉 的 
贝 叶 斯 定理 ， 而 后 人 们 也 利用 这 一 工具 发 展 出 了 各 种 各 样 的 “ 贝 叶 斯 方 
法 ”。 读 完 这 本 书 ， 我 相信 读者 对 此 会 有 深刻 的 认识 。 


男 外 就 是 本 书 的 作者 芯 伦 : 唐 尼 。 他 不 仅 是 一 位 计算 机 学 科教 授 ， 
同时 也 是 一 位 优秀 的 作家 。 在 翻译 本 书 前 ， 我 已 经 读 过 他 的 Think 
Complexity 和 Think Stats， 在 本 书 的 翻译 过 程 中 ， 你 还 可 以 看 到 在 
github 上 他 正在 写作 男 一 本 关于 操作 系统 的 书 ， 书 名 Think OS 。 


显然 ，Think Bayes 是 艾 伦 目 前 写 得 最 好 的 一 本 书 ， 原 因 在 于 在 书 
中 不 但 用 编写 Python 程 序 的 方式 消除 了 贝 叶 斯 方法 的 学 习 门 槛 ， 而 且 
在 每 草 的 实际 问题 中 ， 艾 伦 还 潜移默化 地 教会 了 读者 怎样 为 具体 问题 
建立 数学 模型 ， 如 何 抓 住 问题 中 的 主要 矛盾 (模型 中 的 关键 参数 ) ， 
再 一 步 一 步 地 优化 或 者 验证 模型 的 有 效 性 或 者 局 限 性 。 在 这 个 过 程 
中 ， 你 还 能 学 习 到 统计 分 布 中 那些 具体 概念 的 实际 含义 和 用 途 ， 比 如 
边缘 分 布 、 联 合 分 布 、 贝 时 斯 层次 化 模型 。 


作者 艾 伦 ' 唐 尼 在 github 上 托管 了 本 书 所 有 的 Python 代码 ， 阅 读本 
书 的 过 程 中 ， 在 目 己 的 机 器 上 运行 例子 中 的 代码 绝对 是 一 件 让 人 满意 
的 事情 。 

作者 在 写作 中 还 市 上 了 大 量 的 概率 图 形 ， 借 助 图 表 可 以 帮助 读者 
更 直观 地 理解 有 关 问 题 的 概率 形式 结论 。 


我 的 实际 工作 也 和 贝 叶 斯 方法 有 关联 ， 比 如 我 们 新 浪 邮 箱 就 曾经 
采用 贝 叶 斯 方法 处 理 坪 圾 邮件 ， 业 务 监控 系统 也 可 以 用 贝 叶 斯 方法 来 
进行 异常 指标 判断 。 至 于 谈 到 系统 建 模 ， 本 书 也 帮助 我 目 己 厘清 了 很 
多 有 大 建 模 决 策 的 困惑 。 


总 之 ， 这 本 不 到 200 页 的 书 绝对 值得 一 读 再 读 。 


最 后 ， 我 要 感谢 人 民 邮 电 出 版 社 的 编辑 给 我 机 会 翻译 艾 伦 的 书 。 
室 无 疑问 ， 艾 伦 是 一 个 值得 草 敬 的 科技 书籍 作者 和 民 师 。 我 还 要 感谢 
家 人 对 翻译 工作 的 支持 ， 特 别 是 我 在 书房 静心 工作 的 时 候 ， 刚 刚 一 岁 
的 小 文 儿 小妞 会 很 落地 和 妈妈 游戏 ， 没 有 干扰 我 。 谢 谢 我 的 女儿 ， 我 
的 爱人 李 静 ， 当 然 还 有 无 私 地 替 我 照顾 妻 女 的 母亲 。 


译 者 “” 许 杨 狗 
2014 年 8 月 于 顺和 园 北 


欢迎 来 到 异步 社区 ! 
异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗下 IT 专 业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运 营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 开 专 业 优 质 出 版 资源 和 
编辑 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 上 自 出 版 结合 、 纸 质 书 与 电 
子 书 结合 、 传 统 印刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 提 供 最 新 技术 
资讯 ， 为 作者 和 读者 打造 交流 互动 的 平台 。 


站 呈 步 六 区 


近 贡 活动 


异步 社区 成 立 一 周年 大 型 赌 书 活动 开局 ! 
异步 社区 的 来 历 异步 社区 是 人 民 闻 电 出 版 社 旗下 
IT 专 , 业 图 书 齐 谨 社 区 ， 于 2015 年 8 月 上 线 运 
营 ， 界 步 社区 依托 于 人 民 闻 电 出 版 社 20 宗 年 的 IT 
专业 
加 菊 汉 缉 志 人 狂 2016 

阅读 准 荐 


周年 庆 满 减 促销 | 满 100 元 减 20 元 、 满 150 元 威 35 元 、 满 200 元 减 50 元 + 更 全 


一 iWeb 峰 会 北京 站 即将 开启 , 为 HTML5 乱 

E 

每 一 次 派 仁 高 呼 后 射 行 业 的 影响 ， 每 一 天 无 数 人 

营区 业 业 的 勤 调 ，2016 挫 起 ! 未 吧 ,8 月 27 日 

HTML5 妖 会 北京 站 ,我 在 这 里 , 等 你 末 , 为 

HTMLS 圭 怠 ! ,- 

国 逆反 邯 志 仑 2016-07-29 
移 读 60 基 


试 指南 ( 第 5 版 ) ( 第 1 (R+Python 


i == 才 | ee ”于 
每 周 六 价 电 子 书 + 更 全 
gam 
EE 四 树 花 派 python 编程 入 门 与 实战 ( 第 2 
一 :二 一 一 版 ) 刀 鲁 
Python 游戏 闹 程 快速 上 。 机 器 学 习 项 目 开发 实战 。 入 莫 派 Python 编 程 入 门 。 像 计算 机 科学 家 一 样 思 [ 汞 ] Richard Blum 抒 鲁 准 , Christine 


Bresnahan 布 竺 世 纳 罕 (作者 ) 陈 谋 了 明 
马 立 新 ( 译 者 ) 


与 实战 ( 第 2 版 考 Python ( 第 2 版 


社区 里 都 有 什么 ? 
购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语言 、Web 技 术 、 数 据 科 
学 等 领域 有 众多 经 红 杨 销 图 蔬 "社区 现 已 上 线 图 书 1000 余 种， 电池 
400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


男 外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 
束 可 以 免费 下 载 。 


与 作 译 者 互动 

很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 
还 可 以 参与 社区 的 作者 访谈 栏目 ， 辐 您 关注 的 作者 提出 采 
访 题目 。 


灵活 优惠 的 购书 


您 可 以 方便 地 下 香 购 头 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直 接 从 人 
民 邮 电 出 版 社 书库 发 信 ， 电 子 书 提供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 
间 买 到 心仪 的 新 书 。 


用 户 帐户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 
时 ,在 : EE 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 .注册 成 为 社区 用 户 ， 在 下 单 购书 
时 输入 “57AWG ”， 然 后 点 击 “ 使 用 优惠 码 ”， 即 了 这 受 电 了 世 8 折 优惠 [本 优惠 凑 只 训 便 一 


1 次 ) 。 
纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 
购买 ， 多 种 阅读 选择 。 


软 技能 : 代码 之 外 的 生存 指南 
[ 美 ] 约 翰 Z. 森 梅 芯 ( John Z. Sonmez ) (作者 ) 王 小 刚 ( 译 者 ) 。” 杨 海 玲 ( 素 任 编辑 ) 
名 | 6 9. OK 


刀子 二 4 子 lok oj\ 交 


这 是 一 本 真正 从 “人 ” (而 非 技术 也 非 管理 ) 的 角度 关注 软件 开发 人 员 甩 身 发 展 的 书 。 书 中 论述 的 
内 容 茎 涉及 生活 习惯 ， 又 包括 态 维 方式 ， 翁 显 技术 中 “人 ”的 因素 ,全面 讲 解 软 件 行 业 从 业 人 员 所 
需 知 焉 和 的 所 有 “ 软 技能 ”， 

本 书 暴 集 于 软件 开发 人 员 生 活 的 方方面面 , 从 揭秘 画 试 的 污 程 到 精 耕 绍 作出 一 份 杀手 级 简历 ， 从 创 
建 大 委 欢 迎 的 屡 客 到 打 和 址 你 的 个 人 品牌 ， 从 提高 号 己 工 作 效 李 到 与 如 何 与 “拖延 首 ” 做 斗争 ， 到 至 
包括 如 何 投资 不 动产 ， 如 何 关注 舍 己 的 健康 , 

本 书 共 分 为 职业 简 、 自 我 营销 简 、 学 习 简 、 生 产 力 简 、 理 财 简 、 健 身 简 、 精 神往 等 七 简 ， 概 括 了 软 


9 纸 夺 版 学 59:989 着 46.02(7 
电子 版 羊 35.00 
电子 版 + 纸 质 版 。 半 59.00 


社区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提 区 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勤 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 
社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 斌 


身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 目 出 版 的 
乐趣 ， 轻 松 实现 出 版 的 梦想 。 


如 有 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 
特色 服务 。 


会 议 活 动 早 知道 

您 可 以 掌握 IT 圈 的 技术 会 议 资讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 
加 入 异步 

扫描 任意 二 维 码 都 能 找到 我 们 


异步 社区 


QQ 群 : 368449889 
社区 网 址 : www.epubit.com.cn 
官方 微 信 : 异步 社区 
官方 微 博 : @ 人 邮 异 步 社区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 


投稿 & 咨 询 : contact@epubit.com.cn 


